編 | origin
導語:YannLeCun作為深度學習領域的大牛, 近幾年帶動Facebook的人工智慧項目飛速前進, 其勢頭比之穀歌也不落下風。 如今Facebook的人臉識別技術DeepFace已經能夠識別超過4億張人臉, 而YannLeCun對此並不滿足, 他認為機器視覺不該滿足於從圖片中進行識別, 下一步機器應當從視頻中“學習常識”。
五年前, 研究者們在圖像識別的準確性上, 取得了巨大的突破。 這背後的技術, 人工神經網路, 促成了近來人工智慧的繁榮。 它使穀歌和Faceboo得以讓你在自己的相冊中使用搜索功能, 也讓一批使用面部識別的應用程式得以問世。
Facebook的AI研究團隊負責人兼紐約大學教授, 開創性地將神經網路運用在了機器視覺領域。 他認為這個領域仍然有很大的發展空間, 這個領域取得的進步可能會催生出懂得常識的軟體系統。
問:現在的機器視覺水準如何?
YannLeCun:如果你的圖片有顯著的主體, 那麼只需要標注主體的類別就好。
問:那什麼關鍵問題是還沒解決的?
YannLeCun:在為圖片和視頻自動生成字幕和注釋這方面, 人們已經努力了很多年。 此前已誕生過一些看上去很可觀的方式, 但實際上它們並沒有那麼可靠。 它們的適用範圍極大受限於它們是如何被訓練的。 對於大多數系統, 如果你給它們提供包含其他種類物體或者是處在非常規情境下的圖片,
問:視覺和常識有什麼聯繫?
YannLeCun:這取決於你在和誰交流——即使在Facebook內部, 大家對此也有不同的意見。 你可以和一套智慧系統只用語言交流, 問題是語言是一條頻寬很低的資訊通道。 人們能夠通過語言傳遞大量資訊是因為他們擁有很多的背景知識來解釋這些資訊。
其他人認為, 向AI系統提供足夠資訊的唯一方法是將其視覺感知作為基礎, 而視覺圖像的資訊含量比語言要大得多。 這時如果你再告訴機器“這是一個智慧手機”, “這是一個壓路機”, “這有些東西你能推動但那些不行”, 那麼機器可能會學習到關於這個世界如何運行的一些基本知識。
這有點像嬰兒的學習方式——而嬰兒在沒有明確指示的情況下就能非常多地瞭解這個世界。
我們非常想讓機器通過看視頻或者其他的途徑來獲得大量的體現了現實世界規律的事實。 這將最終使它們獲得常識。 幼年動物與嬰兒出生後頭幾個月的學習過程非常有趣——他們僅僅通過觀察就在短時間內對這個世界產生了驚人的理解。 而現在的機器仍然會被各種方式輕易地愚弄, 因為它們對這個世界的認識實在是太少了。
問:在讓智慧系統通過觀察進行學習這個方面, 有什麼進展?
YannLeCun:一套學習系統應該是可以預測未來的, 我們對這個想法非常感興趣。 你向學習系統展示幾幀視頻, 然後它來預測接下去會發生什麼。