您的位置:首頁>正文

演講實錄丨馬歇爾·赫伯特:人工智慧的前沿技術與實例分析

2017年12月11日, 國際知名機器人專家、美國卡耐基梅隆大學機器人研究所所長馬歇爾·赫伯特(Martial Hebert)教授和首席科學家大衛·伯恩(David Bourne)教授訪問了中國科學技術大學參觀中科大機器人實驗室並作演講。

演講人簡介:馬歇爾·赫伯特教授是國際電腦視覺和機器人研究的領軍學者之一。 自從上世紀八十年代加入卡內基梅隆大學機器人研究所以來, 他參與和領導了物體識別、場景重建、智慧型機器人等領域的多項重要研究, 取得了一系列突出成就, 擔任了《國際電腦視覺期刊》(IJCV)等多個領域內頂級刊物的編委。

以下為國際知名機器人專家、美國卡耐基梅隆大學機器人研究所所長馬歇爾·赫伯特(Martial Hebert)教授的演講實錄。

人工智慧的前沿技術與實例分析

(The Advanced Technology of AI and Case Studies)

大家下午好!很高興能來這裡, 謝謝能給我做這個演講的機會。 今天, 我將要介紹卡內基梅隆大學機器人研究所中進行的研究的主要方向。

我希望能讓大家瞭解我們研究的關鍵方向和嘗試解決的核心挑戰。 首先, 我將說明機器人學, 尤其是機器人學的應用, 指的是什麼。 基本上, 我們嘗試著眼於工作、科學和生活的所有領域中機器人學的應用。

現場機器人學, 這個領域中機器人代替人類完成危險或困難的工作, 像建築、採礦、農業等等。 建築業中, 機器人和人類合作實現更快更好的建築任務。 我的演講之後 Bourne 將詳細介紹這一部分。 運輸和物流業中, 自動駕駛汽車等設備在改善交通運輸。 醫療機器人領域, 機器人和人類一起工作。 還有基礎設施監控領域。 我們考察所有這些機器人應用。

讓我展示一些例子。 這是從事採礦和設施部署的自動駕駛卡車。

這是可以組裝和拆卸物體的作業系統。 這是另一個大型項目, 完成飛機檢查、噴漆和去漆任務, 這些任務需要非常大的機器人相互協作。 這是一個更加複雜的機器人, 具有操作、局部運動、感知等功能, 可以完成在這種環境中的複雜任務。 以上例子向大家展示了我們為了領域中多種多樣的應用場景建造的機器人系統。

今天我希望能讓大家對我們為了建立這樣的機器人系統而進行的研究有一個認識。 這些研究可以被分為這些類別。 在底層, 我們關心機器人的硬體構造, 以及如何進行控制, 這部分稱為動作(action)。 在現實中, 機器人的硬體構造只是我們研究的一小部分。 其他大部分研究中我們關心機器人的智慧,

而不只是機器人的硬體結構。 這包括了機器人的感知(perception), 也就是機器人利用感測器感知和理解環境的能力;機器學習(learning), 即從資料中學習模型的能力, 機器人可以學會如何移動、觀察、決策;自主性(autonomy), 即自主決策和對環境做出反應的能力;最後, 是人機交互(human interaction)。 很多機器人需要處理的問題都是和人而不是和機器人相關的。 它們需要理解人類行為, 並和人類進行交互。 這是機器人學中發展最快的研究領域之一。 我將展示在以上這些領域中我們基礎研究的主要方向。

首先是機器人運動部分, 即機器人的硬體構造和控制。 我們主要關注三個主要的領域。 第一個是讓機器人可以和人類一樣完成非常複雜和精細的操作。

這個例子是機器人展示一個沒有應用價值的操作, 但是它展示了這個操作的難度。 這個任務需要對機器人控制和硬體的物理性質有極高的理解。 這些關於機器人精細操作的研究是一個很大的研究領域。

第二個領域是設計能在困難的環境中完成任務的機器人。 這是我們仿生機器人實驗室(BioRobotics Lab)中的一項研究, 一個可以像蛇一樣運動的蛇形機器人。 這個機器人可以像蛇一樣運動, 完成一些複雜任務。 這項技術可以用於環境檢查、製造業、救援等場景中, 機器人可以進入一些十分複雜的環境中。 最近墨西哥城地震後, 這個機器人參與了對損毀建築的搜救工作。 這個領域的研究有很多應用。 在這個領域的研究中, 如果我們可以設計出非常精妙的機器人結構,我們就可以製造出非常多有趣的機器人,它們可以應用到很多領域當中。想像一下,如果縮小機器人的尺寸,小到它可以進入人類的身體當中,就可以造出這款機器人。背景中的搏動是心臟的跳動,這個機器人正在心臟上方爬行。上方的圖像是機器人的相機看到的場景。我希望這對大家來說並不是太血腥。這是我們對機器人學研究的看法的一個例子。我們從多自由度機械結構這些基本概念出發,將它們應用到各種各樣的應用場景當中,最後建成完整的系統。這款機器人已經得到了商業化應用,並已經獲得了在手術中應用的許可。匹茲堡大學的一個團隊已經使用這款機器人完成十分複雜的手術,如癌症組織的切除。這款機器人可以在不進行切割的情況下完成手術,這是手術技術很大的進步。以上就是我們工作的第二部分,設計具有精妙結構的機器人,來完成現在完全無法完成的任務。比如在不切割的情況下進行手術,搜救,檢查等等,這些任務現之前是無法完成的。

機器人運動中的第三個研究領域是機器人的模組化,和機器人的重新組裝。這在實際中是在機器人研究中取得進展的一項主要障礙。像在製造業中,為了某個特定應用場景設計機器人時,需要花費大量成本和努力來對機器人進行設計和程式設計。完成之後,如果需要對機器人生產的產品進行一個很小的改動,整個系統都需要進行成本很高的重新設計和安裝,顯然這是不符合可持續性要求的。除非有大量的資源和人力,這並不是一個合理的方式。解決方案和軟體設計中的設計模式類似。在軟體發展中,我們可以從軟體庫和模組開發十分複雜的應用程式。我們希望從機器人模組出發實現類似的事情。這些紅色的部件都是機器人的一個模組,包括了硬體和軟體。當我們將它們連接到一起時,它們可以互相通訊。可以對它們進行十分快速的程式設計,所以可以以很快的速度搭建機器人系統。這是一場革命,正如 60 年前軟體行業放棄從頭編寫程式的工作模式,開始從軟體庫和模組開始構建軟體一樣。這其中的挑戰是模組不再只是軟體,而也是硬體。這是一個應用的例子。這段視頻展示了在不到30分鐘的時間內搭建一台全功能的物體操作機器人並對他進行程式設計。這就相當於從現有的模組開始快速完成程式設計。此前這對於機器人來說是不可能的,因為機器人的硬體結構。這也是我們關心的一個大的領域。將這些想法和其他一些想法結合(其中一些之後 Bourne 會在機器人協作製造業中為大家介紹),我們建立了一個新的高級機器人製造研究院。這個研究院關心如何更加靈活地使用機器人,比如如何快速重組機器人系統,讓機器人和人緊密協作。以上是機器人硬體結構和控制領域。

我們希望製造智慧型機器人,而智慧的一個重要組成部分就是理解環境的能力。我們在機器人感知領域有一個很大的團隊,關注 4 個大的核心方向。第一個是環境理解和物體識別。這是一個自動駕駛的例子。左邊是輸入視頻,右邊則是對視頻內容的理解,每個不同的物體和區域用不同的顏色標出。為了能讓機器人做出智慧的決策,對環境有著盡可能詳細的理解十分關鍵。

你們可能對深度學習技術十分熟悉。過去幾年中,這項技術是革命性的,而且正在快速發展,多虧了神經網路,機器學習,深度學習技術。這項技術的一個關鍵問題是它需要非常多的資料進行訓練。而在有些人期望的場景中,如交通信號或者區分這個物體和那個物體,設計這個系統的方法很有限,而且很難擴展,很難真正的適用於實際場景。我們想做的是使用非常少的樣本訓練出識別的系統。例如,當我在能識別這個物體之前,我不需要看關於這個物體的上百萬個樣本。我只要看過這個物體一次,今後就能認出它。怎麼在電腦視覺,在感知中做到這些,是我們的一個主要研究方向,也是一個現在面臨的主要挑戰。

之前我們講的識別環境,理解環境是感知的第一個關鍵領域。下面我要講述的另一個關鍵領域是時空重建。時空重建意味著,你能通過一系列感測器資料,盡可能精確的重建出世界模型。這裡的例子, 用的是三維點雲,這實際上是一座橋,有一個飛行器從橋下以一個自然的速度飛過。這裡的挑戰是,重建精確世界模型的系統需要越簡單越好,越便宜越好,越小型越好。用一個價值百萬的非常複雜的感測器系統來做這些是沒什麼應用價值的,而這裡用的是一個非常便宜的無人機計算出來的。這是另一個自動駕駛的例子。自動駕駛中的一個關鍵問題是在沒有 GPS 的情況下,只從感測器資料,即時的,盡可能精確的進行定位和建圖。這是一個汽車以大約 100km/h 的速度在匹茲堡的街道上行駛的例子,結合鐳射資料和視覺資料,進行一次非常精確的重建工作。這是一項最新技術的例子。這家無人機以 60km/h 的速度運行,這裡的重建是即時的,在飛行中重建出了當時的 3D 環境。

上面是我們的 60km/h 速度的即時 3D 場景重建技術,它被用在無人機控制中。和靜態 3D 場景重建相比,更具挑戰性的是動態場景的重建。場景是動態的,動態指的是場景裡的物體是運動的。這裡花費了我們很多的精力。這是一個全世界獨有的設備,叫做全景工作室(Panoptic Studio)。圖裡面的你能看到的每一個黑色小點都是一個攝像頭,在這個穹頂當中有 500 個攝像頭同時對場景進行觀測。這是一個示例場景,現在有很多東西都在運動,我們有這個場景的 500 個不同視角的同步觀測結果。從這些觀察資料中,我們不僅能重構出這個場景的三維結構,還能構建出更細節的東西,場景中物體的暫態動作。這裡面的每一個軌跡都是場景中每一個特徵的運動軌跡。可以看出,我們重建的非常的精確,場景中的任何物體都被構建了出來。Facebook Oculus 的Oculus VR 就是受這項技術啟發開發的。

以上我們展示的是固定在實驗室中的固定攝像頭。我們還可以使用來自網上的視頻。這是一系列拍攝城市的視頻。他們可以來自汽車、公共設施。我們要做的是將所有的這些資料整合成一個完整的世界模型。我們不但能三維重建環境,還能三維重建任何在環境中運動的物體。這可以看出我們可以通過整合感測器資料,重建出很精確的模型。這是我們的第二個關鍵領域。

第三個關鍵領域是對人的理解。我之前提到了,機器人學中一個非常大的領域是和人進行交互。為了能與人交互,系統必須能理解人,理解人是如何運動的,理解人的面部表情,我在看向什麼地方,理解人的意圖,理解人的內部狀態等等。一個重要的動作是理解面部特徵,這是一個例子,即時跟蹤,視頻中只顯示了一部分的特徵。事實上他會跟蹤更多的資訊,跟蹤幾乎所有的面部肌肉運動,從這裡面我們就能提取出人的情感,人的意圖。這個例子是在導航過程中,觀察駕駛員並推測駕駛員的狀態。這是我這裡的基本思想,理解面部表情。說說關於這項工作的兩件事。第一點是這項技術所需的主要突破是推進在底層使用的學習技術中使用的優化演算法。第二點是這項技術是來自另一個做面部矩陣(Facial Matrix)的公司(最近被 Facebook 收購了),所以這項技術在不久將來很快就能加進各位的 Facebook 平臺中。

理解面部表情是理解人的一個重要部分,但是另一個重要部分是理解人的姿態和動作。如果機器人和我一起走,我希望它能理解我的所有動作,我是怎麼運動的。這是另一個工作。這是我們最新的一個叫 OpenPose 的軟體,現在它世界中各種各樣的場合都有所應用。這個工作是同時跟蹤多數的目標的姿態。一旦你做到了這點,就可以做很多很多應用。對於自動駕駛的汽車,你能夠檢測到諸如行人在做什麼的細節;對於家庭機器人,它可以理解人是怎麼運動的,怎麼和機器人進行交互的。然而這還是不夠。如果你想要知道人在做什麼,你需要理解人的手是怎麼運動的,是如何和環境進行交互的。我們在人的每根獨立的手指與環境交互的尺度上理解更多人動作的細節。你可以想像,現在系統能夠通過人操縱物體的過程,理解人在做什麼,能夠從細節上理解製造業的操作中人與物體的交互過程。以上第三個感知的關鍵領域,讓機器能理解人。

第四部分是感測器。為了做到上面提到的技術,我們需要感測器。我需要攝像頭,3D 感測器,RGBD 感測器來給我足夠好的資料來支援上述的各項技術。眾所周知,伴隨著智慧機行業,消費性電子行業的發展,我們在攝像頭,深度感測器的資料品質上取得了長足的進步。我們現在有非常好的攝像頭,非常好的深度感測器,例如 Kinect,realsense。從表面上看,感測器問題已經被解決了,我們有很好的感測器能用。然而實際上並不是這樣的。事實上在現實中的機器人應用中,當我們需要他們時,這些感測器並不能在我們需要的場景中使用。首先,在我們希望使用這些感測器的實際場合中,有非常複雜的照明和光線條件。我們還要能處理觀測難度高的透明的物體,如金屬制的反光物體。我們想能處理重要的物流或零售應用。我們需要能處理各種極難處理的物體,這些物體是透明的,表面還會反射出人的倒影。在室外自動駕駛場景中,我們要處理非常困難的逆光場景。在這些所有的條件下(例如壞天氣下雨下雪,室外場景)在這些所有條件下,現有的傳感系統基本上都會失效。任何現有的 RGBD 感測器,像 Kinect或realsense,在這些場景裡都會失效。這些真實世界的環境條件就是我們想要處理的條件。

很多的大家知道的解決方案像鐳射掃描設備(例如 Velodyne),他們的問題是依賴於機械,很大,很複雜。而像 Kinect 這樣的則在這些條件下表現的不好。為了搭建魯棒的機器人系統,我們需要更好的感測器。這是我們面對的一個主要挑戰。我們花費了大量的精力在感測器技術中。基本思路是如何精巧地構建透射出去的光線和觀測反射回來的光線。基本的想法是試圖區分出什麼光是我們關心的,什麼光是我們不關心的。如果你試圖透過塵土或者雨觀察,有一部分光會被灰塵反射、折射,這些光我們是不關心的,我們關心的是場景反射回的光。所以這項工作的關鍵就是,我們要嘗試設計一個能區分這兩部分光的系統。這是一個叫 Episcan 的感測器。它的工作原理十分簡單,一個非常可靠的鐳射發射器和一個相機非常仔細地同步到一起。這樣它可以將光和目標物體的深度資訊從環境中其他的干擾反射中區分出來。這是我們的一個例子,感測器試圖獲取燈的資料。如果是通常的攝像機效果是這樣的。所有的東西都被燈光掩蓋住了。而我們的感測器可以做到看見檯燈的內部細節,儘管我們投射的能量的強度並沒有左邊那麼強,而且我們能夠得到這個檯燈的三維形狀,即使在存在強光干擾的情況下。這裡是另外一個例子,測量戶外環境的三維資料。我們沒有辦法用 Kinect 或者 realsense 等等來測量。最重要的部分是,這一類工作致力於開發在所有情況下都能展示清晰結構和形狀的流明攝像機,無論室內還是室外,無論物體什麼類別。這種在所有情形下都能工作的檢測能力是很重要的。讓我們來看看我們在其他領域所做的事情。剛才所講的呢就是感知的領域,理解環境、重構環境,包含了存在任意的移動,理解人的行為和其他比較麻煩的分析。

下面要講的領域便是機器學習。這裡要注意的是我們不可能顯式地對機器人程式設計,我們能做的,是從資料中學習,以及從資料中學會如何對環境做出回饋。這是我們工作的重心。基本想法是要賦予機器人孩童那樣從經歷中學習的能力。靠玩耍和與環境互動,孩童學會了如何抓東西。這就是我們在機器學習中想要做類似的事。這不意味著你要讓一個機器人從零開始學習,而是說如果我們能夠學習一些策略,學習如何回饋環境,我們能夠讓機器人適應力更強,對變換的環境更適應,同時讓他們從錯誤中吸取教訓。這就是這類研究的基本想法。讓我們來看一些例子。這是一個學習如何抓取物品的例子。這裡我們讓機器人花了七百小時來嘗試抓取物品,有時成功,有時失敗,總共嘗試了有5萬次左右。如果你嘗試得足夠多,你就有了足夠多的成功和失敗的案例,你就能從中學習到如何對一個特定輸入採取行動的策略。從這張圖能看到我們失敗和成功的案例。然後我們就學會了如何抓取物體。現在螢幕上的物品是之前機器人沒有見過的,但是機器人卻知道如何通過之前的訓練來判斷如何抓取他們。這篇論文(Lerrel Pinto and Abhinav Gupta, Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours)在 2016 年的 IEEE ICRA 會議上獲得了最佳論文獎。現在我們看到了如何從經歷中學習。但是現在更令人興奮的是能夠學習一些更複雜的策略。就拿這個例子來說,只是學習了抓東西,而沒有學如何把東西拿穩,如何穩定地操控。事實上我們可以走的更遠。這裡我們讓機器人學習如何抵抗逆境,從而學會如何把東西抓穩。這就跟小孩子如何學會判斷怎麼抓,哪個方向更穩是一樣的。這就是利用物理互動和對抗來學習更多複雜的策略。

現在為止講了操控和抓取的例子。另外一個我想提一下的是,多工學習。在這裡機器人除了能抓取,還能推,或者戳一個物體。所以一個研究領域就是如何跨任務地學習,掌握多種技能。剛才講的都是操控相關的,你也可以學一些飛行之類的技能。這是個學習飛行的系統。和剛才講的抓取一樣,這個也是靠不斷嘗試和犯錯來學習飛行策略的,利用深度學習的方法來學習策略。等到無人機學習了很多成功失敗之後,它便能僅僅利用搜集和學習到的資料真正自主飛行了。這些學到的複雜技能向我們展示了學習的強大之處。這些便是機器人系統的另一個重要部分。重申一下,我們的目標不是讓機器人從零開始,我們的目的是讓機器人從資料中學習從而更有適應性,更靈活。

下面一個要講的方面是自主性,也就是自己決策的能力。這裡有一個十年前的例子——DARPA 挑戰賽。在第一個自動駕駛的公開賽中,我們當時獲得了冠軍,這個隊伍後來到 Google 公司參與無人車研發,開啟了整個無人車領域的工業和研究的發展。這個例子裡展示的自主性就是自動駕駛。自動駕駛其實開始於很久以前。這是1986年,也就是三十多年前的例子,一個在 CMU 開發的叫做 NavLab 的系統。車上面有基本的計算系統,還有個超大的攝像頭,用藍色方框標出的是一個雷射雷達,應該是第一個用於自動駕駛的雷射雷達。這算是 Velodyne 的祖先,也是現在很多自動駕駛雷達的前身。它可以提供 60x256 的距離測量能力。如圖便是這個三十年前的自動駕駛的視頻。這是利用神經網路的自動駕駛,以攝像頭拍攝的圖片為輸入,輸出控制方向的行為。這算是現在用於自動駕駛的模仿學習,深度學習的初代版本。這是雷射雷達看到的深度圖像。這也是一個證明時代科技發展的案例,從三十年前到現在。如果你們曾經抱怨計算資源不夠,GPU 不夠,這是當時在 NavLab 系統內部的情況,我們使用的是工作站來運行。

講了一些歷史之後,我們現在又在做些什麼呢?我們現在基本在關注三個主要的挑戰。第一個挑戰是自動駕駛現在不能實現安全的駕駛,比如不會碰撞,不會發生事故。我們想要的是讓駕駛的過程很自然,我們想生成自然的、能夠為其他駕駛員理解並合作的駕駛習慣。第二個難點是要能讓模型把握環境的細節,這對於在擁堵環境下的自動駕駛尤為重要。有許多的行人、許多複雜的反應,不僅需要知道物體在哪裡,還要知道環境中物體的可能意圖和行為,比如預測行人或者其他車輛的活動、行為和相互作用。最後,利用其他資料和其他車輛交流,也是一個重要的領域。我們整合盡可能多的資料和資訊用於自主決策。這些就是在自主性中我們要關注的三個主要的領域。

在基礎研究中,最後一個難點便是機器人和人類的互動。能夠和人類互動是在機器人和其擴展領域中很關鍵的課題。我們關注的是深入理解人類行為,特別是人類的意圖。比如我把手像現在這樣移動,你應該能猜到我要拿滑鼠,我們大腦有一個內部的模型知道我的行為和意圖。第一個要做的就是如何構建這樣一個理解人類的模型,特別是能夠預測意圖和行為的模型。第二個要做的事如何利用這個預測模型與人互動,這和一些機器人合作的方式和技術有關。我這裡舉個例子,一個讓機器人系統和人類控制合作的極端條件下的例子,把人類的意圖和系統控制相結合。這是匹茲堡大學的癱瘓病人,她不能移動自己的手和腳,完全沒有行動能力。你能看到她擁有一個和她大腦相連的機械手臂,,能夠接收大腦的信號,並根據信號來控制手臂。這個腦部連接技術是之前被使用過的,這個技術的問題在於她僅僅能比較粗略地控制手臂,不可能用大腦信號來做一些非常精確的操作。即使病人經過了訓練,她也不能夠成功完成有用的任務,因為你沒辦法達到人類本身的控制水準。這裡的想法就是利用我之前所講的所有東西。先有一個視覺系統來捕捉和理解整個場景,加上一個意圖識別系統來理解人的意圖。就像我開始這樣移動,可能是要抓起這個滑鼠,這個系統對人的意圖會有一些概率的預測。給定意圖之後,系統就能控制手臂、執行任務。極端的來說,一個人在想他要抓滑鼠,然後系統知道了這一意圖並且執行了任務。這是一種對來自大腦信號的控制和人工智慧的控制的獨特的整合。接下來是一個視頻的展示。右邊是完全來自大腦信號的機械手臂控制,左邊是整合了大腦信號和人工智慧系統的手臂控制,也就是剛才講的意圖識別,場景理解等。右邊的情況下她不能抓取目標物體,而左邊她可以順利完成。僅僅是這個簡單的抓取,對純大腦信號來說都是不可能的,卻在與人工智慧系統的整合後變得可能了。這就是我在開頭所說的,我們真正感興趣的是我們以前不可能有的新技能,做這麼多操作以前對這個病人來說是不可能的,這就是我說的賦予人新技能的機器人技術。不過,抓一個東西顯然不是非常讓人興奮的操作。這裡有一個更難的,對純大腦信號完全不可能的操作,開門就是一個這樣的例子。這裡是整合了大腦信號和智慧系統(這裡是病人的頭部和大腦植入物體)。她即將使用整合了大腦信號和意圖識別等的系統來開門。這是一個聽起來不難但實際很難的操作,因為它包含了兩種不同的運動,將旋轉和平移如此精確地同時執行,純粹的大腦信號控制是不可能做到的。

剛才講的分別是一個極端的例子和不那麼極端的例子。讓我用這些技術整合起來的系統來結束這個話題。當我們擁有了這麼多科學技術,我們需要把它們整合成一個完整的系統,我目前為止講的都只是其中的成分之一,感知,學習等等。很多工作落在一些基本的事件上。這些圖片展示了一些完整系統,採礦業,農業,製造業,以及探測業(一個非常大且重要的方面)。我們在不同的設備上做了很多工作,在國家機器人工程中心(在CMU),在這裡我們能夠用剛才講到的來做一個更大的機器人系統。我們來看看這些實際的機器人系統的主要挑戰又有什麼。很重要的一點便是安全性和信任。在經典的軟體系統和經典的工程系統,我們建立了良好的測試、驗證證明這些系統的框架,有一些正規化的、公式化的驗證軟體。問題是,我們如何設計正規化的驗證框架,驗證那些不僅僅是由軟硬體組成的系統,而是基於資料學習的系統。因為現在一個系統的表現不僅僅取決於軟硬體的正確運行,也依賴於那些用來學習的資料。更難辦的是,如何去評估一個適應時間改變的系統。基於觀察的資料能夠隨著時間改變自己表現的系統,我們如何評估這些複雜的有不同方向用處的系統,這些就是我們在建立系統時主要關注的一些領域,這是一個新興的致力於打造可信賴機器人的領域。這是一些我們的大專案的圖片,和驗證軟體一樣,驗證機器人系統。我們需要有事實依據來驗證證明系統的表現,從而使系統具有可預測的、能被人類所信賴和利用的表現。這是一個很小的例子,有一個人在與非常危險的工作環境互動,當然是在保證安全的情況下,從而我們能更好觀測系統的表現,得到一個可信賴的系統。這是另外一個無人機的例子。對於自動的系統來說,適應所有環境顯然是很困難的,所以我們需要有一個內省或者叫做自我評估的系統,讓系統能夠自己評價自己的表現,然後在系統即將陷入困境、失敗之前採取正確措施。比如你在開車,突然你被大霧包圍,你立刻就能知道你的視覺系統肯定會失效。我們需要賦予機器人同樣的能力,讓機器人能自我評估,並且在知道其表現會受影響的情況採取正確措施。這便是這一類工作 的思想所在。在圖中這裡例子裡,左邊的視頻是無人機的單目圖像,右邊是從無人機單眼攝像得到的三維圖像,最右邊是代表了可能失敗的概率,越高代表概率越大。無人機一邊飛行一邊檢測自己的飛行表現,就像你開車時能知道視野如何,自己開車的表現會如何。這是我們在理解、衡量以及增強一個自動系統時關注的一方面。

更普遍來講,我們致力於建立自主系統的集成科學。它帶給我們正規化的工具和方法,把之前說的那些技術成分整合進在現實應用中能被真正信賴的系統。以上就是我想和大家分享的。主要關注一些基礎的研究和方向,動作、感知、機器學習、自主性以及和人的交互,以及在技術集成領域的一些主要挑戰,如何把技術成分融合成實際應用的系統。我的演講就到此結束。

(以上演講由張夏禹、程湛、崔國偉、陳廣大、帥威、張澤坤整理翻譯,帥威、張澤坤校對。)

如果我們可以設計出非常精妙的機器人結構,我們就可以製造出非常多有趣的機器人,它們可以應用到很多領域當中。想像一下,如果縮小機器人的尺寸,小到它可以進入人類的身體當中,就可以造出這款機器人。背景中的搏動是心臟的跳動,這個機器人正在心臟上方爬行。上方的圖像是機器人的相機看到的場景。我希望這對大家來說並不是太血腥。這是我們對機器人學研究的看法的一個例子。我們從多自由度機械結構這些基本概念出發,將它們應用到各種各樣的應用場景當中,最後建成完整的系統。這款機器人已經得到了商業化應用,並已經獲得了在手術中應用的許可。匹茲堡大學的一個團隊已經使用這款機器人完成十分複雜的手術,如癌症組織的切除。這款機器人可以在不進行切割的情況下完成手術,這是手術技術很大的進步。以上就是我們工作的第二部分,設計具有精妙結構的機器人,來完成現在完全無法完成的任務。比如在不切割的情況下進行手術,搜救,檢查等等,這些任務現之前是無法完成的。

機器人運動中的第三個研究領域是機器人的模組化,和機器人的重新組裝。這在實際中是在機器人研究中取得進展的一項主要障礙。像在製造業中,為了某個特定應用場景設計機器人時,需要花費大量成本和努力來對機器人進行設計和程式設計。完成之後,如果需要對機器人生產的產品進行一個很小的改動,整個系統都需要進行成本很高的重新設計和安裝,顯然這是不符合可持續性要求的。除非有大量的資源和人力,這並不是一個合理的方式。解決方案和軟體設計中的設計模式類似。在軟體發展中,我們可以從軟體庫和模組開發十分複雜的應用程式。我們希望從機器人模組出發實現類似的事情。這些紅色的部件都是機器人的一個模組,包括了硬體和軟體。當我們將它們連接到一起時,它們可以互相通訊。可以對它們進行十分快速的程式設計,所以可以以很快的速度搭建機器人系統。這是一場革命,正如 60 年前軟體行業放棄從頭編寫程式的工作模式,開始從軟體庫和模組開始構建軟體一樣。這其中的挑戰是模組不再只是軟體,而也是硬體。這是一個應用的例子。這段視頻展示了在不到30分鐘的時間內搭建一台全功能的物體操作機器人並對他進行程式設計。這就相當於從現有的模組開始快速完成程式設計。此前這對於機器人來說是不可能的,因為機器人的硬體結構。這也是我們關心的一個大的領域。將這些想法和其他一些想法結合(其中一些之後 Bourne 會在機器人協作製造業中為大家介紹),我們建立了一個新的高級機器人製造研究院。這個研究院關心如何更加靈活地使用機器人,比如如何快速重組機器人系統,讓機器人和人緊密協作。以上是機器人硬體結構和控制領域。

我們希望製造智慧型機器人,而智慧的一個重要組成部分就是理解環境的能力。我們在機器人感知領域有一個很大的團隊,關注 4 個大的核心方向。第一個是環境理解和物體識別。這是一個自動駕駛的例子。左邊是輸入視頻,右邊則是對視頻內容的理解,每個不同的物體和區域用不同的顏色標出。為了能讓機器人做出智慧的決策,對環境有著盡可能詳細的理解十分關鍵。

你們可能對深度學習技術十分熟悉。過去幾年中,這項技術是革命性的,而且正在快速發展,多虧了神經網路,機器學習,深度學習技術。這項技術的一個關鍵問題是它需要非常多的資料進行訓練。而在有些人期望的場景中,如交通信號或者區分這個物體和那個物體,設計這個系統的方法很有限,而且很難擴展,很難真正的適用於實際場景。我們想做的是使用非常少的樣本訓練出識別的系統。例如,當我在能識別這個物體之前,我不需要看關於這個物體的上百萬個樣本。我只要看過這個物體一次,今後就能認出它。怎麼在電腦視覺,在感知中做到這些,是我們的一個主要研究方向,也是一個現在面臨的主要挑戰。

之前我們講的識別環境,理解環境是感知的第一個關鍵領域。下面我要講述的另一個關鍵領域是時空重建。時空重建意味著,你能通過一系列感測器資料,盡可能精確的重建出世界模型。這裡的例子, 用的是三維點雲,這實際上是一座橋,有一個飛行器從橋下以一個自然的速度飛過。這裡的挑戰是,重建精確世界模型的系統需要越簡單越好,越便宜越好,越小型越好。用一個價值百萬的非常複雜的感測器系統來做這些是沒什麼應用價值的,而這裡用的是一個非常便宜的無人機計算出來的。這是另一個自動駕駛的例子。自動駕駛中的一個關鍵問題是在沒有 GPS 的情況下,只從感測器資料,即時的,盡可能精確的進行定位和建圖。這是一個汽車以大約 100km/h 的速度在匹茲堡的街道上行駛的例子,結合鐳射資料和視覺資料,進行一次非常精確的重建工作。這是一項最新技術的例子。這家無人機以 60km/h 的速度運行,這裡的重建是即時的,在飛行中重建出了當時的 3D 環境。

上面是我們的 60km/h 速度的即時 3D 場景重建技術,它被用在無人機控制中。和靜態 3D 場景重建相比,更具挑戰性的是動態場景的重建。場景是動態的,動態指的是場景裡的物體是運動的。這裡花費了我們很多的精力。這是一個全世界獨有的設備,叫做全景工作室(Panoptic Studio)。圖裡面的你能看到的每一個黑色小點都是一個攝像頭,在這個穹頂當中有 500 個攝像頭同時對場景進行觀測。這是一個示例場景,現在有很多東西都在運動,我們有這個場景的 500 個不同視角的同步觀測結果。從這些觀察資料中,我們不僅能重構出這個場景的三維結構,還能構建出更細節的東西,場景中物體的暫態動作。這裡面的每一個軌跡都是場景中每一個特徵的運動軌跡。可以看出,我們重建的非常的精確,場景中的任何物體都被構建了出來。Facebook Oculus 的Oculus VR 就是受這項技術啟發開發的。

以上我們展示的是固定在實驗室中的固定攝像頭。我們還可以使用來自網上的視頻。這是一系列拍攝城市的視頻。他們可以來自汽車、公共設施。我們要做的是將所有的這些資料整合成一個完整的世界模型。我們不但能三維重建環境,還能三維重建任何在環境中運動的物體。這可以看出我們可以通過整合感測器資料,重建出很精確的模型。這是我們的第二個關鍵領域。

第三個關鍵領域是對人的理解。我之前提到了,機器人學中一個非常大的領域是和人進行交互。為了能與人交互,系統必須能理解人,理解人是如何運動的,理解人的面部表情,我在看向什麼地方,理解人的意圖,理解人的內部狀態等等。一個重要的動作是理解面部特徵,這是一個例子,即時跟蹤,視頻中只顯示了一部分的特徵。事實上他會跟蹤更多的資訊,跟蹤幾乎所有的面部肌肉運動,從這裡面我們就能提取出人的情感,人的意圖。這個例子是在導航過程中,觀察駕駛員並推測駕駛員的狀態。這是我這裡的基本思想,理解面部表情。說說關於這項工作的兩件事。第一點是這項技術所需的主要突破是推進在底層使用的學習技術中使用的優化演算法。第二點是這項技術是來自另一個做面部矩陣(Facial Matrix)的公司(最近被 Facebook 收購了),所以這項技術在不久將來很快就能加進各位的 Facebook 平臺中。

理解面部表情是理解人的一個重要部分,但是另一個重要部分是理解人的姿態和動作。如果機器人和我一起走,我希望它能理解我的所有動作,我是怎麼運動的。這是另一個工作。這是我們最新的一個叫 OpenPose 的軟體,現在它世界中各種各樣的場合都有所應用。這個工作是同時跟蹤多數的目標的姿態。一旦你做到了這點,就可以做很多很多應用。對於自動駕駛的汽車,你能夠檢測到諸如行人在做什麼的細節;對於家庭機器人,它可以理解人是怎麼運動的,怎麼和機器人進行交互的。然而這還是不夠。如果你想要知道人在做什麼,你需要理解人的手是怎麼運動的,是如何和環境進行交互的。我們在人的每根獨立的手指與環境交互的尺度上理解更多人動作的細節。你可以想像,現在系統能夠通過人操縱物體的過程,理解人在做什麼,能夠從細節上理解製造業的操作中人與物體的交互過程。以上第三個感知的關鍵領域,讓機器能理解人。

第四部分是感測器。為了做到上面提到的技術,我們需要感測器。我需要攝像頭,3D 感測器,RGBD 感測器來給我足夠好的資料來支援上述的各項技術。眾所周知,伴隨著智慧機行業,消費性電子行業的發展,我們在攝像頭,深度感測器的資料品質上取得了長足的進步。我們現在有非常好的攝像頭,非常好的深度感測器,例如 Kinect,realsense。從表面上看,感測器問題已經被解決了,我們有很好的感測器能用。然而實際上並不是這樣的。事實上在現實中的機器人應用中,當我們需要他們時,這些感測器並不能在我們需要的場景中使用。首先,在我們希望使用這些感測器的實際場合中,有非常複雜的照明和光線條件。我們還要能處理觀測難度高的透明的物體,如金屬制的反光物體。我們想能處理重要的物流或零售應用。我們需要能處理各種極難處理的物體,這些物體是透明的,表面還會反射出人的倒影。在室外自動駕駛場景中,我們要處理非常困難的逆光場景。在這些所有的條件下(例如壞天氣下雨下雪,室外場景)在這些所有條件下,現有的傳感系統基本上都會失效。任何現有的 RGBD 感測器,像 Kinect或realsense,在這些場景裡都會失效。這些真實世界的環境條件就是我們想要處理的條件。

很多的大家知道的解決方案像鐳射掃描設備(例如 Velodyne),他們的問題是依賴於機械,很大,很複雜。而像 Kinect 這樣的則在這些條件下表現的不好。為了搭建魯棒的機器人系統,我們需要更好的感測器。這是我們面對的一個主要挑戰。我們花費了大量的精力在感測器技術中。基本思路是如何精巧地構建透射出去的光線和觀測反射回來的光線。基本的想法是試圖區分出什麼光是我們關心的,什麼光是我們不關心的。如果你試圖透過塵土或者雨觀察,有一部分光會被灰塵反射、折射,這些光我們是不關心的,我們關心的是場景反射回的光。所以這項工作的關鍵就是,我們要嘗試設計一個能區分這兩部分光的系統。這是一個叫 Episcan 的感測器。它的工作原理十分簡單,一個非常可靠的鐳射發射器和一個相機非常仔細地同步到一起。這樣它可以將光和目標物體的深度資訊從環境中其他的干擾反射中區分出來。這是我們的一個例子,感測器試圖獲取燈的資料。如果是通常的攝像機效果是這樣的。所有的東西都被燈光掩蓋住了。而我們的感測器可以做到看見檯燈的內部細節,儘管我們投射的能量的強度並沒有左邊那麼強,而且我們能夠得到這個檯燈的三維形狀,即使在存在強光干擾的情況下。這裡是另外一個例子,測量戶外環境的三維資料。我們沒有辦法用 Kinect 或者 realsense 等等來測量。最重要的部分是,這一類工作致力於開發在所有情況下都能展示清晰結構和形狀的流明攝像機,無論室內還是室外,無論物體什麼類別。這種在所有情形下都能工作的檢測能力是很重要的。讓我們來看看我們在其他領域所做的事情。剛才所講的呢就是感知的領域,理解環境、重構環境,包含了存在任意的移動,理解人的行為和其他比較麻煩的分析。

下面要講的領域便是機器學習。這裡要注意的是我們不可能顯式地對機器人程式設計,我們能做的,是從資料中學習,以及從資料中學會如何對環境做出回饋。這是我們工作的重心。基本想法是要賦予機器人孩童那樣從經歷中學習的能力。靠玩耍和與環境互動,孩童學會了如何抓東西。這就是我們在機器學習中想要做類似的事。這不意味著你要讓一個機器人從零開始學習,而是說如果我們能夠學習一些策略,學習如何回饋環境,我們能夠讓機器人適應力更強,對變換的環境更適應,同時讓他們從錯誤中吸取教訓。這就是這類研究的基本想法。讓我們來看一些例子。這是一個學習如何抓取物品的例子。這裡我們讓機器人花了七百小時來嘗試抓取物品,有時成功,有時失敗,總共嘗試了有5萬次左右。如果你嘗試得足夠多,你就有了足夠多的成功和失敗的案例,你就能從中學習到如何對一個特定輸入採取行動的策略。從這張圖能看到我們失敗和成功的案例。然後我們就學會了如何抓取物體。現在螢幕上的物品是之前機器人沒有見過的,但是機器人卻知道如何通過之前的訓練來判斷如何抓取他們。這篇論文(Lerrel Pinto and Abhinav Gupta, Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours)在 2016 年的 IEEE ICRA 會議上獲得了最佳論文獎。現在我們看到了如何從經歷中學習。但是現在更令人興奮的是能夠學習一些更複雜的策略。就拿這個例子來說,只是學習了抓東西,而沒有學如何把東西拿穩,如何穩定地操控。事實上我們可以走的更遠。這裡我們讓機器人學習如何抵抗逆境,從而學會如何把東西抓穩。這就跟小孩子如何學會判斷怎麼抓,哪個方向更穩是一樣的。這就是利用物理互動和對抗來學習更多複雜的策略。

現在為止講了操控和抓取的例子。另外一個我想提一下的是,多工學習。在這裡機器人除了能抓取,還能推,或者戳一個物體。所以一個研究領域就是如何跨任務地學習,掌握多種技能。剛才講的都是操控相關的,你也可以學一些飛行之類的技能。這是個學習飛行的系統。和剛才講的抓取一樣,這個也是靠不斷嘗試和犯錯來學習飛行策略的,利用深度學習的方法來學習策略。等到無人機學習了很多成功失敗之後,它便能僅僅利用搜集和學習到的資料真正自主飛行了。這些學到的複雜技能向我們展示了學習的強大之處。這些便是機器人系統的另一個重要部分。重申一下,我們的目標不是讓機器人從零開始,我們的目的是讓機器人從資料中學習從而更有適應性,更靈活。

下面一個要講的方面是自主性,也就是自己決策的能力。這裡有一個十年前的例子——DARPA 挑戰賽。在第一個自動駕駛的公開賽中,我們當時獲得了冠軍,這個隊伍後來到 Google 公司參與無人車研發,開啟了整個無人車領域的工業和研究的發展。這個例子裡展示的自主性就是自動駕駛。自動駕駛其實開始於很久以前。這是1986年,也就是三十多年前的例子,一個在 CMU 開發的叫做 NavLab 的系統。車上面有基本的計算系統,還有個超大的攝像頭,用藍色方框標出的是一個雷射雷達,應該是第一個用於自動駕駛的雷射雷達。這算是 Velodyne 的祖先,也是現在很多自動駕駛雷達的前身。它可以提供 60x256 的距離測量能力。如圖便是這個三十年前的自動駕駛的視頻。這是利用神經網路的自動駕駛,以攝像頭拍攝的圖片為輸入,輸出控制方向的行為。這算是現在用於自動駕駛的模仿學習,深度學習的初代版本。這是雷射雷達看到的深度圖像。這也是一個證明時代科技發展的案例,從三十年前到現在。如果你們曾經抱怨計算資源不夠,GPU 不夠,這是當時在 NavLab 系統內部的情況,我們使用的是工作站來運行。

講了一些歷史之後,我們現在又在做些什麼呢?我們現在基本在關注三個主要的挑戰。第一個挑戰是自動駕駛現在不能實現安全的駕駛,比如不會碰撞,不會發生事故。我們想要的是讓駕駛的過程很自然,我們想生成自然的、能夠為其他駕駛員理解並合作的駕駛習慣。第二個難點是要能讓模型把握環境的細節,這對於在擁堵環境下的自動駕駛尤為重要。有許多的行人、許多複雜的反應,不僅需要知道物體在哪裡,還要知道環境中物體的可能意圖和行為,比如預測行人或者其他車輛的活動、行為和相互作用。最後,利用其他資料和其他車輛交流,也是一個重要的領域。我們整合盡可能多的資料和資訊用於自主決策。這些就是在自主性中我們要關注的三個主要的領域。

在基礎研究中,最後一個難點便是機器人和人類的互動。能夠和人類互動是在機器人和其擴展領域中很關鍵的課題。我們關注的是深入理解人類行為,特別是人類的意圖。比如我把手像現在這樣移動,你應該能猜到我要拿滑鼠,我們大腦有一個內部的模型知道我的行為和意圖。第一個要做的就是如何構建這樣一個理解人類的模型,特別是能夠預測意圖和行為的模型。第二個要做的事如何利用這個預測模型與人互動,這和一些機器人合作的方式和技術有關。我這裡舉個例子,一個讓機器人系統和人類控制合作的極端條件下的例子,把人類的意圖和系統控制相結合。這是匹茲堡大學的癱瘓病人,她不能移動自己的手和腳,完全沒有行動能力。你能看到她擁有一個和她大腦相連的機械手臂,,能夠接收大腦的信號,並根據信號來控制手臂。這個腦部連接技術是之前被使用過的,這個技術的問題在於她僅僅能比較粗略地控制手臂,不可能用大腦信號來做一些非常精確的操作。即使病人經過了訓練,她也不能夠成功完成有用的任務,因為你沒辦法達到人類本身的控制水準。這裡的想法就是利用我之前所講的所有東西。先有一個視覺系統來捕捉和理解整個場景,加上一個意圖識別系統來理解人的意圖。就像我開始這樣移動,可能是要抓起這個滑鼠,這個系統對人的意圖會有一些概率的預測。給定意圖之後,系統就能控制手臂、執行任務。極端的來說,一個人在想他要抓滑鼠,然後系統知道了這一意圖並且執行了任務。這是一種對來自大腦信號的控制和人工智慧的控制的獨特的整合。接下來是一個視頻的展示。右邊是完全來自大腦信號的機械手臂控制,左邊是整合了大腦信號和人工智慧系統的手臂控制,也就是剛才講的意圖識別,場景理解等。右邊的情況下她不能抓取目標物體,而左邊她可以順利完成。僅僅是這個簡單的抓取,對純大腦信號來說都是不可能的,卻在與人工智慧系統的整合後變得可能了。這就是我在開頭所說的,我們真正感興趣的是我們以前不可能有的新技能,做這麼多操作以前對這個病人來說是不可能的,這就是我說的賦予人新技能的機器人技術。不過,抓一個東西顯然不是非常讓人興奮的操作。這裡有一個更難的,對純大腦信號完全不可能的操作,開門就是一個這樣的例子。這裡是整合了大腦信號和智慧系統(這裡是病人的頭部和大腦植入物體)。她即將使用整合了大腦信號和意圖識別等的系統來開門。這是一個聽起來不難但實際很難的操作,因為它包含了兩種不同的運動,將旋轉和平移如此精確地同時執行,純粹的大腦信號控制是不可能做到的。

剛才講的分別是一個極端的例子和不那麼極端的例子。讓我用這些技術整合起來的系統來結束這個話題。當我們擁有了這麼多科學技術,我們需要把它們整合成一個完整的系統,我目前為止講的都只是其中的成分之一,感知,學習等等。很多工作落在一些基本的事件上。這些圖片展示了一些完整系統,採礦業,農業,製造業,以及探測業(一個非常大且重要的方面)。我們在不同的設備上做了很多工作,在國家機器人工程中心(在CMU),在這裡我們能夠用剛才講到的來做一個更大的機器人系統。我們來看看這些實際的機器人系統的主要挑戰又有什麼。很重要的一點便是安全性和信任。在經典的軟體系統和經典的工程系統,我們建立了良好的測試、驗證證明這些系統的框架,有一些正規化的、公式化的驗證軟體。問題是,我們如何設計正規化的驗證框架,驗證那些不僅僅是由軟硬體組成的系統,而是基於資料學習的系統。因為現在一個系統的表現不僅僅取決於軟硬體的正確運行,也依賴於那些用來學習的資料。更難辦的是,如何去評估一個適應時間改變的系統。基於觀察的資料能夠隨著時間改變自己表現的系統,我們如何評估這些複雜的有不同方向用處的系統,這些就是我們在建立系統時主要關注的一些領域,這是一個新興的致力於打造可信賴機器人的領域。這是一些我們的大專案的圖片,和驗證軟體一樣,驗證機器人系統。我們需要有事實依據來驗證證明系統的表現,從而使系統具有可預測的、能被人類所信賴和利用的表現。這是一個很小的例子,有一個人在與非常危險的工作環境互動,當然是在保證安全的情況下,從而我們能更好觀測系統的表現,得到一個可信賴的系統。這是另外一個無人機的例子。對於自動的系統來說,適應所有環境顯然是很困難的,所以我們需要有一個內省或者叫做自我評估的系統,讓系統能夠自己評價自己的表現,然後在系統即將陷入困境、失敗之前採取正確措施。比如你在開車,突然你被大霧包圍,你立刻就能知道你的視覺系統肯定會失效。我們需要賦予機器人同樣的能力,讓機器人能自我評估,並且在知道其表現會受影響的情況採取正確措施。這便是這一類工作 的思想所在。在圖中這裡例子裡,左邊的視頻是無人機的單目圖像,右邊是從無人機單眼攝像得到的三維圖像,最右邊是代表了可能失敗的概率,越高代表概率越大。無人機一邊飛行一邊檢測自己的飛行表現,就像你開車時能知道視野如何,自己開車的表現會如何。這是我們在理解、衡量以及增強一個自動系統時關注的一方面。

更普遍來講,我們致力於建立自主系統的集成科學。它帶給我們正規化的工具和方法,把之前說的那些技術成分整合進在現實應用中能被真正信賴的系統。以上就是我想和大家分享的。主要關注一些基礎的研究和方向,動作、感知、機器學習、自主性以及和人的交互,以及在技術集成領域的一些主要挑戰,如何把技術成分融合成實際應用的系統。我的演講就到此結束。

(以上演講由張夏禹、程湛、崔國偉、陳廣大、帥威、張澤坤整理翻譯,帥威、張澤坤校對。)

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示