華文網

AI 造出來個“假”奧巴馬,你聽到的奧巴馬演講可能也是假的

不僅奧巴馬可以被山寨,接下被山寨的可能是你!

編者按:AI 能做的事情越來越多的,但是你可能很難想像有人竟然利用 AI 模仿起了奧巴馬,利用現有的奧巴馬聲音和視頻片段,生成非常逼真的“假視頻”。

研究人員介紹說,這項工作將有助於虛擬實境應用程式和加強現實應用程式生成人物的數位模型。

早前,華盛頓大學的電腦科學家們表示,通過對人物圖像的分析,不論是像湯姆漢克斯和施瓦辛格這樣的名人,還是像喬治布希和奧巴馬這樣的公眾人物,

他們都能夠生成人物的數位模型。這項工作暗示著,只要網路上有大量的人物照片,創建人物數位模型將會變得非常簡單。

研究者們之所以選擇奧巴馬作為研究物件,是因為網上有很多奧巴馬演講的高清視頻。研究小組用一個神經網路來分析視頻的數百萬幀影像,以判斷奧巴馬在講話時面部的變化,比如他的嘴唇、牙齒,甚至是嘴巴和下巴周圍的皺紋。

點擊查看完整視頻

在人工神經網路中,被稱為“人工神經元”的元件實際上是輸入的資料。這些元件共同協作來解決類似人臉識別和語音辨識這樣的問題。這個神經網路能夠通過改變各個神經元間的關係模式,進而改變神經元的互動方式。經過不斷的反復,這個神經網路最終就能選擇出一種最有佳的解決方案——一個模仿人類大腦的人工智慧戰略模式。

在新的研究中,神經網路通過對音訊和視頻的分析,瞭解與聲音匹配的各種口型。研究者們將音訊與視頻的原聲檔對比分析,然後選取與音訊匹配的口型,將它們嫁接到新視頻中。從本質上來說,研究者們是將奧巴馬多年來講話的口型合成為一個新視頻。

專家們表示,通過拍攝人們說話的視頻,然後對聲音和視頻進行分析,進而總結出各種口型以及與之匹配的各種聲音,

這樣的研究方式不僅成本高,而且非常單調、耗時。相反,這個神經網路能夠通過對網上大量的視頻檔的分析和研究,幫助我們總結出口型以及與之匹配的聲音。

此項研究合作者、華盛頓大學的Ira Kemelmacher-Shlizerman指出,這項新技術的一個潛在應用是完善視訊會議。視訊會議的視頻內容可能會斷斷續續或不夠清晰,也可能被凍結,但音訊內容一般不會出現這樣的情況。因此,將來的視訊會議可能會直接傳輸人們說話的音訊,然後利用這個軟體將他們說話的聲音與他們可能出現的口型合成,形成一個虛擬的會議視頻。Kemelmacher-Shlizerman表示,這項技術還能説明人們在虛擬實境應用程式或加強現實應用程式中與數位虛擬人物進行交談。

研究專家們指出他們合成的視頻現在來說還不夠完美。舉例來說,當奧巴馬在目標視頻中稍微轉過了臉,他的臉的3D模型就會產生缺陷,這也將導致他的部分嘴巴超出臉的範圍,與背景相重疊。

研究團隊表示他們的工作雖然可以模仿人的說話方式,但並不能模仿出人的感情。所以合成視頻中的奧巴馬的面部表情可能會出現與場合不相稱的情況,比如在嚴肅的演講中表情過於高興。但是他們也表明,如果他們的神經網路能夠從音訊中預測人物的情緒狀態,進而生成相應的視頻,那麼這將是非常有趣的研究成果。

研究者們在合成視頻時,會儘量避免在新視頻中出現奧巴馬不曾涉及過的言論。研究的主要研究員,同時也是華盛頓大學的電腦科學家的Supasorn Suwajanakorn表示,這樣的“假視頻”是可能即將發生的。

然而,這項新研究同時也提出了未來檢測“假視頻”的方法。例如,研究人員進行的視頻操作會模糊人物的嘴巴和牙齒。Suwajanakorn說:“人的肉眼可能很難發現這些細微的變化,但是將嘴部模糊部分與視頻中其餘部分作對比,程式能夠輕易地識別出。”

研究者們推測,在某種程度上,口型與說話方式之間的聯繫可能對所有人都是普遍通用的。這就表明,經奧巴馬和其他公眾人物的視頻訓練的神經網路能夠適用於很多不同的普通人。 圖普科技編譯

乖乖,沒有人會對一個假的乖乖感興趣的,我還是喜歡真人,我知道,乖乖在北京將來的視訊會議可能會直接傳輸人們說話的音訊,然後利用這個軟體將他們說話的聲音與他們可能出現的口型合成,形成一個虛擬的會議視頻。Kemelmacher-Shlizerman表示,這項技術還能説明人們在虛擬實境應用程式或加強現實應用程式中與數位虛擬人物進行交談。

研究專家們指出他們合成的視頻現在來說還不夠完美。舉例來說,當奧巴馬在目標視頻中稍微轉過了臉,他的臉的3D模型就會產生缺陷,這也將導致他的部分嘴巴超出臉的範圍,與背景相重疊。

研究團隊表示他們的工作雖然可以模仿人的說話方式,但並不能模仿出人的感情。所以合成視頻中的奧巴馬的面部表情可能會出現與場合不相稱的情況,比如在嚴肅的演講中表情過於高興。但是他們也表明,如果他們的神經網路能夠從音訊中預測人物的情緒狀態,進而生成相應的視頻,那麼這將是非常有趣的研究成果。

研究者們在合成視頻時,會儘量避免在新視頻中出現奧巴馬不曾涉及過的言論。研究的主要研究員,同時也是華盛頓大學的電腦科學家的Supasorn Suwajanakorn表示,這樣的“假視頻”是可能即將發生的。

然而,這項新研究同時也提出了未來檢測“假視頻”的方法。例如,研究人員進行的視頻操作會模糊人物的嘴巴和牙齒。Suwajanakorn說:“人的肉眼可能很難發現這些細微的變化,但是將嘴部模糊部分與視頻中其餘部分作對比,程式能夠輕易地識別出。”

研究者們推測,在某種程度上,口型與說話方式之間的聯繫可能對所有人都是普遍通用的。這就表明,經奧巴馬和其他公眾人物的視頻訓練的神經網路能夠適用於很多不同的普通人。 圖普科技編譯

乖乖,沒有人會對一個假的乖乖感興趣的,我還是喜歡真人,我知道,乖乖在北京