20個令人驚歎的深度學習應用,Demo+Paper+Code
唐旭 發自 RUC
從電腦視覺到自然語言處理,在過去的幾年裡,深度學習技術被應用到了數以百計的實際問題中。諸多案例也已經證明,深度學習能讓工作比之前做得更好。
今天,
針對每個應用,我們還儘量收集了相關的Demo、Paper和Code等資訊。
1、Face2Face:扮演特朗普斯坦福大學的一個小組做了一款名為Face2Face的應用,這套系統能夠利用人臉捕捉,讓你在視頻裡即時扮演另一個人,簡單來講,就是可以把你的面部表情即時移植到視頻裡正在發表演講的美國總統身上。
同樣的原理也可以用於對視頻裡場景的3D重建、電影特效也可以這麼幹。
這個應用的實際效果是這樣的:
Paper:
http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdf
2、Let there be color!:給黑白照片/視頻自動上色左圖是拍攝於1937年的一幅礦工的照片,右圖是用Let there be color!重新自動上色後的效果。
上圖是拍攝於1909年的一張保齡球館的照片,下圖是用Let there be color!重新上色後的效果。
實際上,這是運用深度學習網路學習自然存在於照片中的某些模式——比如,天通常是藍的,雲是白的或者灰的,草是綠的。通過這類規則,Let there be color!不需要人類的介入就能對照片進行重新上色。雖然有時它也會犯錯,但這種錯誤很難被發現。
同樣地,Let there be color!也可以把黑白視頻變成彩色的。
Demo:
http://hi.cs.waseda.ac.jp:8082/
Paper:
http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf
Code:
https://github.com/satoshiiizuka/siggraph2016_colorization
3、Pixel Recursive Super Resolution:告別馬賽克我為什麼不看美劇CSI?原因很簡單:太假了。
直到深度學習出現。今年早些時候,穀歌大腦的研究者們訓練了一個深度學習網路,他們讓後者根據一些解析度極低的人臉圖像來預測這些面孔真實的樣子。如下圖:
最左邊是輸入的8×8圖元的原始影像,最右一列是被拍攝的人臉在照片中的真實效果,中間則是電腦的猜測。
可以看到,雖然並不完美,但電腦預估出的結果已經與實際情況十分接近。Google的研究者將這種方法命名為 Pixel Recursive Super Resolution(圖元遞迴超解析度),用這種方法能顯著提升圖像的品質。
Paper:
https://arxiv.org/abs/1702.00783
4、即時多人動作預估深度學習網路已經能在預估動作方面幫動畫師很大的忙,如今,我們甚至能做到即時預估。康奈爾大學Zhe Cao等人教會了一個神經網路估算人類骨架位置的變化。
在如下的視頻中,你可以看到一群人在街頭跳舞,而通過這種神經網路,我們能知道他們在哪、如何做動作。
Paper:
https://arxiv.org/abs/1611.08050
5、Neural Talk:描述照片用電腦來對照片進行自動分類已經很常見了。比如,Facebook能在分享的照片裡標記出你的好友,Google可以為你的照片打上標籤以便更有效率地進行搜索。
而如今,深度學習已經可以對照片中的各種元素進行描述。在Andrej Karpathy和李飛飛所做的一項工作中,他們訓練了一個能對照片中不同區域內元素進行識別,並用一句話來描述照片的深度學習系統。
Demo:
http://cs.stanford.edu/people/karpathy/deepimagesent/generationdemo/
Paper:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf
6、DeepWarp:你瞅啥?再瞅把你做成表情包!這個應用有點惡搞的意思。現在,不管你手裡拿到了誰的照片,用Ganin等人開發的這個深度學習網路過一下,你就可以讓他的眼睛動起來:你可以讓他上下看、左右看,甚至繞著圈看……好吧,除了生產表情包,其實也不知道它還能幹什麼用……
這是一些例子,裡面有伊莉莎白女王、奧巴馬、莎拉波娃……等等:
http://sites.skoltech.ru/compvision/projects/deepwarp/
Demo:
http://163.172.78.19/
Paper:
http://sites.skoltech.ru/compvision/projects/deepwarp/files/deepwarp_eccv2016.pdf
7、生成新照片來自懷俄明州立大學的Anh Nguyen以及其他幾位研究者開發了一套能用反覆運算的方式從已有照片中合成全新照片的深度學習網路。以下是一些電腦合成的樣片,結果令人驚豔:
Paper:
https://arxiv.org/pdf/1612.00005.pdf
8、用卷積神經網路來拯救鯨魚眾所周知,卷積神經網路在圖像識別分類領域有著非常好的前景。利用深度學習,我們可以將抓拍到的珍稀動物(比如鯨魚)照片進行分類,從而更好地估算某種動物的存活數量。
其他的例子包括浮游生物、植物等等。
分類浮游生物的介紹:
http://benanne.github.io/2015/03/17/plankton.html
Code:
https://github.com/benanne/kaggle-ndsb
9、Pix2Pix:靈魂畫師這個點子與之前提到的Let there be color!有點類似,不過要更有創造力一點。你可以往電腦中輸入一幅簡筆劃,甚至一些色塊,然後讓電腦發揮自己的創造力輸出新的圖片。類似地,你也可以把衣服航拍照片變成一幅地圖,將白天的場景變成夜晚。
前段時間特別火的信手畫貓(傳送門),也是基於這個技術。
Paper:
https://arxiv.org/pdf/1611.07004v1.pdf
Code:
https://github.com/phillipi/pix2pix
10、Reading text in the Wild:用圖片找文字牛津視覺幾何小組運用深度學習技術開發了一項應用,它可以讀出視頻中的文字,輸入文字,就可以直接搜出圖像中包含這些文字的BBC新聞視頻。比如,這是對“London”的一部分搜索結果:
Demo:
http://www.robots.ox.ac.uk/~vgg/research/text/#sec-demo
Paper:
http://arxiv.org/abs/1412.1842
11、Google Sunroof:看你家房頂能收到多少太陽能Google Sunroof首先會根據Google地球的航拍地圖為你家的屋頂創建一個3D模型,然後再用深度學習將屋頂和周圍的數目區分開,接著根據太陽運行軌跡以及天氣狀況,就可以估算出安裝了太陽能電池板的房頂能收集到多少太陽能。
項目首頁:
https://www.google.com/get/sunroof#p=0
12、AI制霸打磚塊Google的Deepmind團隊用深度強化技術教會了AI玩《打磚塊》(Breakout,基本大家都玩過,具體是什麼請看下圖)。
測試過程中,電腦並沒有依據任何遊戲規則被進行特殊的編成,他們只是將鍵盤的控制權交給AI,然後對它進行不斷地訓練。起初,AI玩得十分糟糕;但經過兩個小時的訓練之後,畫風就變成了這個樣子的:
Paper:
https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
Code:
https://sites.google.com/a/deepmind.com/dqn/
13、制霸全場~打磚塊還不夠?深度學習技術還被用來在更多遊戲領域訓練AI,包括:《小蜜蜂》、《毀滅公爵》、《乒乓》等幾十種遊戲。在大多數的遊戲裡,深度學習網路已經玩的比有經驗的玩家更好,同樣所有的玩法都是AI自己摸索的。
Paper:
http://www.davidqiu.com:8888/research/nature14236.pdf
14、LipNet:讓AI讀唇語來自牛津大學和Deepmind的科學家共同完成了這一項目。LipNet在讀唇的準確率方面達到了驚人93%,遠超人類讀唇者52%的平均水準。
Paper:
https://arxiv.org/pdf/1611.01599.pdf
Code:
https://github.com/bshillingford/LipNet
15、真·靈魂畫師如今,運用深度學習技術,可以讓AI對某一幅畫的風格、色彩、明暗等元素進行學習,然後將這幅畫上的風格移植到另一幅上,而且效果非常不錯。
這麼說可能不夠直觀,來看幾個例子:
下面從左到右,依次是畢卡索、梵·高和莫内風格的蒙娜麗莎。
而這是某位老哥用AI創作的穀歌地圖風格的蒙娜麗莎……
Demo:
https://deepart.io/
Paper:
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf
16、AI寫字現在電腦不光能用來打字,還能用來寫字了:多倫多大學的Alex Graves教會了電腦用多種不同的風格來書寫。
Demo:
http://www.cs.toronto.edu/~graves/handwriting.html
Paper:
https://arxiv.org/abs/1308.0850
17、深度學習預測城市熱人口和選舉結果Gebru等人收集了5000萬張Google街景照片,然後用深度學習技術加以挖掘看看能發現什麼。結果,深度學習不僅識別出了2200萬輛汽車的材質、車型、年份等,還從中發現了一些關聯,比如可以通過對車型的識別來分析某片區域的人口狀況。
更有趣的是,AI發現,如果在一段15分鐘長的駕駛路程上遇到的轎車比皮卡更多,那麼這個城市在下屆的總統選舉中有88%的幾率將選票投給民主黨;否則,則有82%的幾率投給共和黨。
Paper:
https://arxiv.org/pdf/1702.06683.pdf
18、Deep Dreaming:AI也會白日做夢2015年,Google的研究者找到了一種用深度學習來增強圖像特徵的方法,隨後,他們就開發了Deep Dreaming——它能夠在圖片中生成一些不可思議的幻象。因為有些和夢境十分相似,因此取名Deep Dreaming。具體生成什麼樣的幻想與這個深度學習系統最近被暴露在什麼樣的環境下有關,有時它甚至能生成嚇人的噩夢。
項目首頁:
https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html
影集:
http://www.telegraph.co.uk/technology/google/11730050/deep-dream-best-images.html?frame=3370674
Code:
https://github.com/google/deepdream
19、反復攻破和修補自己的防火牆Google大腦的研究團隊創建了兩個深度學習網路用於安全工具開發,他們讓其中一個不斷創造自己的加密演算法,然後讓另一個網路去盡力攻破它。在兩套系統的反復纏鬥後,第一個系統已經能生成非常優秀的安全加密演算法。
然而,第二套演算法也總是表現得比它更好……
Paper:
https://arxiv.org/pdf/1610.06918v1.pdf
20、預測地震哈佛的科學家們運用深度學習技術讓電腦學會“粘彈性計算”——一種被用於預測地震的計算方法。結果,計算的效果在AI上大大被增強了。
然而,電腦同時將計算時間提高了50000%。在地震中,時間就是生命。因此,目前用AI來預測地震還為時尚早。
Paper:
https://arxiv.org/pdf/1701.08884v1.pdf
好啦,先介紹到這裡。深度學習固然厲害,不過也有不同的聲音。兼聽則明,不妨繼續移步今天推送的第二條~
公開課報名
4月18號(週二),量子位攜手創新工廠打造AI學院首次公開課,邀請創新工廠AI工程院副院長王詠剛、技術VP李天放,共同為你打造一堂人工智慧從0到1基礎入門課。
如果你想瞭解人工智慧行業的歷史與發展,如果你想入門學習人工智慧,報名地址在此:
http://www.huodongxing.com/event/1383011602000
招聘
我們正在招募編輯記者、運營等崗位,工作地點在北京中關村,期待你的到來,一起體驗人工智慧的風起雲湧。
One More Thing…
今天AI界還有哪些事值得關注?今天”,看我們全網搜羅的AI行業和研究動態。筆芯~
qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。如今,我們甚至能做到即時預估。康奈爾大學Zhe Cao等人教會了一個神經網路估算人類骨架位置的變化。
在如下的視頻中,你可以看到一群人在街頭跳舞,而通過這種神經網路,我們能知道他們在哪、如何做動作。
Paper:
https://arxiv.org/abs/1611.08050
5、Neural Talk:描述照片用電腦來對照片進行自動分類已經很常見了。比如,Facebook能在分享的照片裡標記出你的好友,Google可以為你的照片打上標籤以便更有效率地進行搜索。
而如今,深度學習已經可以對照片中的各種元素進行描述。在Andrej Karpathy和李飛飛所做的一項工作中,他們訓練了一個能對照片中不同區域內元素進行識別,並用一句話來描述照片的深度學習系統。
Demo:
http://cs.stanford.edu/people/karpathy/deepimagesent/generationdemo/
Paper:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf
6、DeepWarp:你瞅啥?再瞅把你做成表情包!這個應用有點惡搞的意思。現在,不管你手裡拿到了誰的照片,用Ganin等人開發的這個深度學習網路過一下,你就可以讓他的眼睛動起來:你可以讓他上下看、左右看,甚至繞著圈看……好吧,除了生產表情包,其實也不知道它還能幹什麼用……
這是一些例子,裡面有伊莉莎白女王、奧巴馬、莎拉波娃……等等:
http://sites.skoltech.ru/compvision/projects/deepwarp/
Demo:
http://163.172.78.19/
Paper:
http://sites.skoltech.ru/compvision/projects/deepwarp/files/deepwarp_eccv2016.pdf
7、生成新照片來自懷俄明州立大學的Anh Nguyen以及其他幾位研究者開發了一套能用反覆運算的方式從已有照片中合成全新照片的深度學習網路。以下是一些電腦合成的樣片,結果令人驚豔:
Paper:
https://arxiv.org/pdf/1612.00005.pdf
8、用卷積神經網路來拯救鯨魚眾所周知,卷積神經網路在圖像識別分類領域有著非常好的前景。利用深度學習,我們可以將抓拍到的珍稀動物(比如鯨魚)照片進行分類,從而更好地估算某種動物的存活數量。
其他的例子包括浮游生物、植物等等。
分類浮游生物的介紹:
http://benanne.github.io/2015/03/17/plankton.html
Code:
https://github.com/benanne/kaggle-ndsb
9、Pix2Pix:靈魂畫師這個點子與之前提到的Let there be color!有點類似,不過要更有創造力一點。你可以往電腦中輸入一幅簡筆劃,甚至一些色塊,然後讓電腦發揮自己的創造力輸出新的圖片。類似地,你也可以把衣服航拍照片變成一幅地圖,將白天的場景變成夜晚。
前段時間特別火的信手畫貓(傳送門),也是基於這個技術。
Paper:
https://arxiv.org/pdf/1611.07004v1.pdf
Code:
https://github.com/phillipi/pix2pix
10、Reading text in the Wild:用圖片找文字牛津視覺幾何小組運用深度學習技術開發了一項應用,它可以讀出視頻中的文字,輸入文字,就可以直接搜出圖像中包含這些文字的BBC新聞視頻。比如,這是對“London”的一部分搜索結果:
Demo:
http://www.robots.ox.ac.uk/~vgg/research/text/#sec-demo
Paper:
http://arxiv.org/abs/1412.1842
11、Google Sunroof:看你家房頂能收到多少太陽能Google Sunroof首先會根據Google地球的航拍地圖為你家的屋頂創建一個3D模型,然後再用深度學習將屋頂和周圍的數目區分開,接著根據太陽運行軌跡以及天氣狀況,就可以估算出安裝了太陽能電池板的房頂能收集到多少太陽能。
項目首頁:
https://www.google.com/get/sunroof#p=0
12、AI制霸打磚塊Google的Deepmind團隊用深度強化技術教會了AI玩《打磚塊》(Breakout,基本大家都玩過,具體是什麼請看下圖)。
測試過程中,電腦並沒有依據任何遊戲規則被進行特殊的編成,他們只是將鍵盤的控制權交給AI,然後對它進行不斷地訓練。起初,AI玩得十分糟糕;但經過兩個小時的訓練之後,畫風就變成了這個樣子的:
Paper:
https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
Code:
https://sites.google.com/a/deepmind.com/dqn/
13、制霸全場~打磚塊還不夠?深度學習技術還被用來在更多遊戲領域訓練AI,包括:《小蜜蜂》、《毀滅公爵》、《乒乓》等幾十種遊戲。在大多數的遊戲裡,深度學習網路已經玩的比有經驗的玩家更好,同樣所有的玩法都是AI自己摸索的。
Paper:
http://www.davidqiu.com:8888/research/nature14236.pdf
14、LipNet:讓AI讀唇語來自牛津大學和Deepmind的科學家共同完成了這一項目。LipNet在讀唇的準確率方面達到了驚人93%,遠超人類讀唇者52%的平均水準。
Paper:
https://arxiv.org/pdf/1611.01599.pdf
Code:
https://github.com/bshillingford/LipNet
15、真·靈魂畫師如今,運用深度學習技術,可以讓AI對某一幅畫的風格、色彩、明暗等元素進行學習,然後將這幅畫上的風格移植到另一幅上,而且效果非常不錯。
這麼說可能不夠直觀,來看幾個例子:
下面從左到右,依次是畢卡索、梵·高和莫内風格的蒙娜麗莎。
而這是某位老哥用AI創作的穀歌地圖風格的蒙娜麗莎……
Demo:
https://deepart.io/
Paper:
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf
16、AI寫字現在電腦不光能用來打字,還能用來寫字了:多倫多大學的Alex Graves教會了電腦用多種不同的風格來書寫。
Demo:
http://www.cs.toronto.edu/~graves/handwriting.html
Paper:
https://arxiv.org/abs/1308.0850
17、深度學習預測城市熱人口和選舉結果Gebru等人收集了5000萬張Google街景照片,然後用深度學習技術加以挖掘看看能發現什麼。結果,深度學習不僅識別出了2200萬輛汽車的材質、車型、年份等,還從中發現了一些關聯,比如可以通過對車型的識別來分析某片區域的人口狀況。
更有趣的是,AI發現,如果在一段15分鐘長的駕駛路程上遇到的轎車比皮卡更多,那麼這個城市在下屆的總統選舉中有88%的幾率將選票投給民主黨;否則,則有82%的幾率投給共和黨。
Paper:
https://arxiv.org/pdf/1702.06683.pdf
18、Deep Dreaming:AI也會白日做夢2015年,Google的研究者找到了一種用深度學習來增強圖像特徵的方法,隨後,他們就開發了Deep Dreaming——它能夠在圖片中生成一些不可思議的幻象。因為有些和夢境十分相似,因此取名Deep Dreaming。具體生成什麼樣的幻想與這個深度學習系統最近被暴露在什麼樣的環境下有關,有時它甚至能生成嚇人的噩夢。
項目首頁:
https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html
影集:
http://www.telegraph.co.uk/technology/google/11730050/deep-dream-best-images.html?frame=3370674
Code:
https://github.com/google/deepdream
19、反復攻破和修補自己的防火牆Google大腦的研究團隊創建了兩個深度學習網路用於安全工具開發,他們讓其中一個不斷創造自己的加密演算法,然後讓另一個網路去盡力攻破它。在兩套系統的反復纏鬥後,第一個系統已經能生成非常優秀的安全加密演算法。
然而,第二套演算法也總是表現得比它更好……
Paper:
https://arxiv.org/pdf/1610.06918v1.pdf
20、預測地震哈佛的科學家們運用深度學習技術讓電腦學會“粘彈性計算”——一種被用於預測地震的計算方法。結果,計算的效果在AI上大大被增強了。
然而,電腦同時將計算時間提高了50000%。在地震中,時間就是生命。因此,目前用AI來預測地震還為時尚早。
Paper:
https://arxiv.org/pdf/1701.08884v1.pdf
好啦,先介紹到這裡。深度學習固然厲害,不過也有不同的聲音。兼聽則明,不妨繼續移步今天推送的第二條~
公開課報名
4月18號(週二),量子位攜手創新工廠打造AI學院首次公開課,邀請創新工廠AI工程院副院長王詠剛、技術VP李天放,共同為你打造一堂人工智慧從0到1基礎入門課。
如果你想瞭解人工智慧行業的歷史與發展,如果你想入門學習人工智慧,報名地址在此:
http://www.huodongxing.com/event/1383011602000
招聘
我們正在招募編輯記者、運營等崗位,工作地點在北京中關村,期待你的到來,一起體驗人工智慧的風起雲湧。
One More Thing…
今天AI界還有哪些事值得關注?今天”,看我們全網搜羅的AI行業和研究動態。筆芯~
qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。