谷歌用AI融合1000種樂器創造新聲音，將現身藝術節

李杉編譯自 Wired

Jesse Engel正在演奏一種介於古鋼琴和哈蒙德電風琴之間的樂器——融合了18世紀的古典樂與20世紀的節奏布魯斯。他隨後把一個滑塊拖過筆記型電腦的螢幕。

突然之間，那個樂器又變成古鋼琴和哈蒙德電風琴之間的另外一種融合。之前可能是15%的古鋼琴，現在則接近75%。之後，他又快速地來回拖動標記，展示這兩種不同樂器之間的不同融合方式。

“這跟同時演奏這兩種樂器並不一樣。 ”Engel的同事Cinjon Resnick說。這的確值得一提。這台機器和他的軟體並不是把古鋼琴的聲音疊加到哈蒙德電風琴上，而是利用演算法將這兩種樂器的聲音特色融合成一種全新的聲音。

他們可以將這種方式融合大約1000種不同的樂器，從而創造出無數種新的聲音。這一切都要感謝人工智慧。

Engel和Resnick都是穀歌Magenta團隊的一員——這是穀歌內部的一個小型人工智慧研究團隊，他們專門負責開發能夠自己創作藝術的電腦系統——而這個樂器融合項目則是他們的最新嘗試。該團隊將于本周晚些時候，在北卡羅來納州舉行的Moogfest藝術、音樂和科技節上公開展示這個名為NSynth的專案。

穀歌上月首次在博客中探討了NSynth的創意，希望借此為音樂家提供全新的音樂製作工具。

評論家Marc Weidenbaum指出，這種方法與管弦樂隊指揮多年以來所追求的方法相差不大——“把樂器融合起來並不是什麼新想法。 ”他說——但他相信，穀歌的技術可以將這種古老的嘗試推向新的高度。 “從藝術上講，它可以產生一些炫酷的東西，而由於它是穀歌，人們都會跟隨它。 ”他說。

聲音的界限

Magenta是穀歌大腦人工智慧團隊的一部分，後者有一部分研究人員正在探索神經網路和其他機器學習技術的邊界。神經網路是一種複雜的數學系統，可以通過分析大量資料來學會如何執行各種任務，這項技術最近幾年已經在物體和人臉識別、語音指令和語言翻譯等領域展現了不俗的成績。現在， Magenta團隊則希望利用神經網路教會機器如何製作新的音樂或其他藝術。

NSynth首先彙集大量聲音，組成一個龐大的資料庫。 Engel和團隊會從大約1000種不同的樂器那裡收集音調資訊，然後灌輸給神經網路。通過分析這些音調，神經網路便可學會每種樂器的音色。然後為每種樂器開發一個數學“向量”。使用這些向量，機器便可模擬每一種樂器的聲音——例如哈蒙德電風琴或古鋼琴——但也可以合併這兩種聲音。

除了Engel最近在穀歌總部展示的NSynth“滑塊”外，該團隊還開發了一種二維介面，可以讓你一次性探索四種不同樂器之間的聽覺空間。該團隊還計畫進一步推進這一想法，探索藝術創作的邊界。例如，第二個神經網路可以學會新的方法來模擬和融合所有樂器的聲音。讓人工智慧與人工智慧展開合作。

相關連結

論文：

https://arxiv.org/abs/1704.01279

代碼：

https://github.com/tensorflow/magenta/tree/master/magenta/models/nsynth

資料集：

https://magenta.tensorflow.org/datasets/nsynth

【完】

招聘

One More Thing…