史上第一支AI創作專輯發行，我們深入研究了9個相關企業

不久前，美國網紅兼流行歌手 Taryn Southern 新專輯《I AM AI》發佈，當中主打單曲《Break Free》成為人類歷史上第一支正式發行的AI歌曲。這首歌的旋律和歌詞由Taryn Southern完成，編曲和監製則交給AI作曲平臺Amper Music，它親自操刀和聲、和絃、樂器、整體風格、整體節奏，且MV由穀歌Deep Dream平臺生成，乍一聽，竟毫無違和感。

如今， AI不僅協助作曲，也能獨自作曲，源自於音樂模式背後蘊藏著數學之美，從基礎理論設計、數學邏輯同構並進行符號化組織的角度來看，音樂雖然作為一門藝術，卻有很強的可計算性。

我們從常規的作曲技巧不難看出規律。旋律的重複、模進、轉調、模糊、音程或節奏壓擴，

和聲與對位中的音高縱橫向排列組合，配器中的音色組合，曲式中的並行、對置、對稱、迴旋、奏鳴等等，都可以被描述為單一或組合的演算法。這從本質上決定了， AI技術可以較好地應用到音樂創作上。

實際上，早在上世紀60年代，就已經有結合電腦與傳統音樂的嘗試。然而直到近幾年，智慧演算法成熟，許多基於機器學習神經網路的開源專案浮出水面， AI技術有了長足的進步，因此越來越多的人關注到這個科技與藝術奇妙結合的領域，電腦音樂與傳統音樂的橋樑才逐漸架設起來。目前，諸多AI公司都在研究AI音樂，一些AI音樂作品甚至到了“以假亂真”的地步，讓我們一起來聽聽。

索尼Flow Machines系統

從1997年以來，位於巴黎的索尼電腦科學研究實驗室（CSL Research Labs）就開始專注前沿音樂技術的研究和發展，

2014年推出了人工智慧製作的爵士樂， 2016年展示了第一首AI創作的披頭士風格流行曲《Daddy’s Car（爸爸的車）》。

支撐這首歌背後的AI系統是索尼Flow Machines。該系統由歐洲研究理事會（European Research Council）資助、索尼電腦科學實驗室主管弗朗索瓦·帕謝（François Pachet）打造，既可以自動生成音樂，也能與人類藝術家合作創作音樂。

這首歌的創作切入點來自於一個超過1.3萬首歌曲的樂譜資料庫，你可以根據個人喜好，從資料庫裡任意選擇曲子搭配。該系統會分析你所選歌曲的特點，統計其特性與節奏、音高與和聲，譜成一首完整的曲子。

該系統原理好比給貨架分類零食。前期，將各種音樂風格轉化成可計算的物件，

可以被讀取、複製並應用於人工智慧；然後通過機器學習，掌握音符、音樂、音節、和絃搭配；再將相似特徵的放在一起，新建一個分區或主旋律譜；最終完成一首曲子。

谷歌AI Duet應用

去年，穀歌展示了人工智慧實驗（AI Experiments）網站（http://aiexperiments.withgoogle.com/），通過web應用，任何人都可以進行（開源）測試，目的就是為了讓那些對AI感興趣但沒有技術背景的人更容易理解機器學習技術，當然，你既可以選擇谷歌研究人員開發的項目，也被允許創建自己的專案進行AI實驗。

AI Duet是穀歌AI Experiments的大事件之一，它展示了機器學習在音樂上的應用。有了它，你就能與電腦一起表演二重奏，你只需要彈奏一些音符，電腦就會回應出一段旋律。 AI Duet支援鍵盤、電腦鍵盤、外接MIDI鍵盤。

AI Duet會記錄你輸入的音符，並通過神經網路運行，

此前，該神經網路已經對數百種不同旋律的音樂進行了機器學習，神經網路尋找的是它可以識別並與你所選音符匹配的旋律和節奏模式，然後以此為基礎，生成自己的旋律，這段旋律聽起來往往像是對你所輸入旋律或音符的一個回應，保留了你原本的曲風。

AI Duet是穀歌旗下創意實驗室(即Creative Lab)以“用代碼製作音樂”為名建立的一個項目，參與研發的，還有知名音樂人和電腦科學家Yotam Man，以及穀歌的開源計算音樂和藝術專案Magenta。 AI Duet基於Tensorflow框架、Tone.js以及Magenta項目的開源工具打造，是穀歌使用人工智慧涉足音樂領域的初步嘗試。

IBM Watson也能識別音樂

IBM曾表示， Watson Music具備將數以百萬計的非結構化資料點轉化為情感見解（emotional insights）的能力，有助於創作一種全新類型的音樂。

也就是說， Tone Analyzer API 閱讀分析了《美國公告牌百強單曲榜》（Billboard Hot 100）中26000多首歌曲的歌詞，然後， Watson Beat分析了這些歌曲的創作成分，在各種音符、和絃之間尋找有用的模式，完成了一部富有情感的音樂作品。

格萊美獲獎音樂製作人亞曆克斯男孩（Alex da Kid）曾與Watson Music搭檔，借由Watson的“情感性見解”，以“心碎（heartbreak）”作為歌曲的中心情感，與Watson Beat共同完成了一首表現心碎情感的音樂作品。

Spotify

幾乎所有的音樂愛好者線上聽歌或使用流媒體音樂和工具時，都會碰到Spotify這個名字。 Spotify是一項數位音樂服務，允許使用者讀取數以百萬計的歌曲，但人們不知道的是，它其實也間接使用了機器學習技術。

Spotify使用了一種名為協同過濾（collaborative filtering）的方法，從用戶的聽歌行為中盡可能多地整理出相關資料，然後與它從全球範圍內收集到的其他使用者的資料進行比較分析，再使用這些資料改善該應用的推薦歌曲內容，並根據使用者的聽歌習慣推薦使用者新音樂。

該公司還收購了另一家機器學習公司Echo Nest，Echo Nest能夠使用AI收集人們發佈到博客、新聞網站和社交媒體上的有關新音樂的資料，通過機器學習提供更好的音樂發現。

使用Spotify的用戶應該很熟悉它的Discover Weekly功能，它會為使用者推薦最新音樂以及最近新發佈的混合音樂清單。而這些特性都採用了機器學習方法，挖掘使用者的收聽資料，來為使用者打造一個用戶會喜歡聆聽的個性化的播放設計列表。

Aiva Technologies

Aiva Technologies是AI作曲領域的領頭羊之一。該公司由Pierre Barreau、Denis Shtefan、Arnaud Decker和Vincent Barreau於2016年在盧森堡和英國倫敦同時成立。

Aiva是“Artificial Intelligence Virtual Artist（人工智慧虛擬藝術家）”的簡稱，它通過學習創作古典音樂（通常來說是一種人類獨有的情感藝術），成功打入電影、廣告和遊戲公司等多個市場。

Aiva已經發行了第一張專輯《創世紀（Genesis）》和諸多單曲，並成為全球第一個官方承認的人工智慧作曲家。它註冊在法國和盧森堡作者權益社團（SACEM），其所有作品的版權都歸屬在它自己名下。

Aiva依靠強化學習技術的深度學習演算法。作為機器學習的一個重要分支，深度學習可以實現多層“神經網路”中海量資料的資訊處理，雖然只是基於人腦的神經結構，卻利於機器思考。這允許人工智慧理解資料並建立高級抽象模型，例如旋律中的模式或人臉的特徵。

強化學習其實也是機器學習的一個分支。常見的機器學習——監督學習——是對具有標籤的訓練樣本進行學習，而強化學習不同，它讓代理者（AI）通過“累計回報”最大化，在沒有標籤的海量資料中自動學習。也正因如此，人工智慧才得以在音樂這種極具創造力的藝術領域，更加容易地從其變化無窮的特徵中進行選取。

該團隊利用深度神經網路，讓Aiva學習大量著名作曲家們的作品（比如巴赫、貝多芬、莫札特等），以瞭解作曲藝術並慢慢習得音樂理論知識的概念；此後，Aiva便開始了自己的音樂創作之旅；最後，它的作品都會由專業的藝術家使用真正的樂器，在錄音棚中錄製完成，從而保證了最佳的音質。

雖說Aiva在短短幾分鐘之內就可以創作一曲古典音樂，但是它的客戶並不滿足于此，他們還要求它創作出具有“影像資訊的敘事性”的作品。為此，在創作之前，Aiva還需要進行數次反覆運算次數建模。

Jukedeck

Jukedeck也是一個AI作曲初創企業，團隊由作曲家、生產商、工程師、專業學者以及機器學習專家組成，他們對音樂和技術有著強烈愛好，於是基於深層神經網路領域訓練Jukedeck，探索創作和改編音樂的方法，提供音樂個性化工具。

Jukedeck會將數以百計的樂譜添加到人工智慧神經網路，分析相連音符間的概率，或者和絃的連續性，而通過一個自動轉換生成音訊的程式，深層神經網路可以生成一個新的音樂作品。

使用者可以改編，也可以生成個性化音樂。該公司表示，它一直在尋求向需要背景音樂專案的消費者出售曲目。《紐約時報》曾經報導，如果大型企業使用該公司無版權費的音樂，Jukedeck要對其收費21.99美元，遠遠少於雇傭一位音樂家的費用。

Brain.FM

科學家一直認為音樂對人類思維有影響，而且還有人表示，人們可以通過聆聽某些特定種類的音樂來改善大腦的功能。而Brain.FM，已經通過人工智慧創建出了一些混合音調，幫助人們減少焦慮、睡眠障礙，並提高用戶的心理作業能力，甚至緩解注意力缺乏症（ADD.）。

神經學家和這家芝加哥音訊初創公司已經打造了一台機器，採用製作神經學音樂的規則，創作出聽起來與人類創作無異的旋律。據該公司介紹，AI可以創造出提高大腦注意力、讓大腦放鬆、冥想、小憩和睡眠的音樂，在10至15分鐘內有效。

人們可以使用AI生成符合他們理想狀態的音樂，進入深度睡眠、或專注於工作或冥想。該應用允許用戶首次免費聽七遍不同的聲音，之後就都是付費音樂了。

LANDR

可以說，在音樂領域，LANDR是最有趣的新興技術之一，該技術可提供即時音訊掌握服務，也就是說，每次使用者上傳歌曲時，LANDR都會為該作品創建一個定制的“數字指紋”，然後通過交叉引用的資料庫來識別該歌曲的類型和創作方式。接著，基於用戶的曲目需求，它將運用一系列的定制自我調整工具，如多頻段壓縮、等化器（EQ）、身歷聲增強限制處理和聽覺激發等。然後它就會基於人工智慧的獨特屬性，自動地進行精細的逐幀調整。

有趣的是，在最後階段，通過人工後期處理後，這首音樂作品將聽起來更加清晰、連貫、豐富且真實。有了LANDR的演算法，就可以輕鬆地分析此前我們已經掌握的豐富的歌曲存儲庫，以及用類似模式創作的其他類型的音樂，藝術家們也可以把原始的歌曲上傳到LANDR雲中，獲取成品。

歌曲識別軟體Shazam

Shazam應用能夠識別使用者身邊的音樂和電視節目，人們可以通過它發現、探索和分享自己喜愛的音樂和電視。

簡單來說，就類似於“聽歌識曲”，假設你聽到了一首喜歡的音樂，又想知道歌名，這時候Shazam就派上用場了。

AI作曲的“幕後”

AI作曲，背後基於人工智慧技術支撐。關於這一領域的研究工作，比較熱門的是多倫多大學研究者在ICLR‘17投稿的一篇論文《Song from PI: A musically plausible network for pop music generation》（https://openreview.net/pdf?id=ByBwSPcex）。

知乎介紹，論文的大致想法是利用深度學習的LSTM模型（hierarchical recurrent network），利用100個小時的流行歌曲的 mini 格式的 tag 進行訓練。這裡比較有意思的地方是作者在這個模型裡面整合了一些音樂相關的general knowledge，模型結構如下圖所示，在RNN這個模型中有key layer, press layer, chord layer, drum layer 等結構，在模型設計和合成的過程中也考慮了 scale 和 chord 等音樂因素。這些 prior 無疑可以更好的説明人工智慧模型學習音樂中的關鍵元素以及常見套路。

論文裡面還展示了一些應用，比如說生成音樂的過程中同時生成跳舞的小人（如下圖），以及嘗試用 neural image captioning的辦法生成歌詞或者朗誦，這些應用都給未來提出了無限可能性。

或許，流行音樂目前的瓶頸並不僅僅在於作曲本身，還有樂器和聲音設計，而嘗試利用AI技術創造出獨特之音，讓音樂脫穎而出，將是AI作曲達到“以假亂真”效果的下一個亟待解決問題。儘管如此，未來將是人類與機器合作以發揮創造潛力，而不是相互代替。<來源：techseen.com、futurism.com；編譯整理：科技行者> 然後與它從全球範圍內收集到的其他使用者的資料進行比較分析，再使用這些資料改善該應用的推薦歌曲內容，並根據使用者的聽歌習慣推薦使用者新音樂。