您的位置:首頁>科技>正文

演講實錄丨李德毅:無人駕駛的圖靈測試

2017全球人工智慧技術大會

2017年5月21日

國家會議中心4層大會堂B

本文根據速記進行整理

無人駕駛的圖靈測試

李德毅

中國人工智慧學會理事長, 中國工程院院士

李德毅:各位下午好, 今天談一談智慧駕駛, 我講一下智慧車做好了怎麼測, 怎麼使得它具有拿到駕照的水準, 我報告的題目是無人駕駛的圖靈測試。

做什麼東西, 得把評測搞清楚, 怎麼測, 我們一直講智慧代理, 智慧代理或者認知它的方法是什麼。 圖靈先生在他年輕的時候就在想這個事情, 他提出了圖靈測試, 幾十年過去了, 人們已經把圖靈測試研究透了, 有人說圖靈測試漏洞太多了, 不好測。 有人認為圖靈測試做了很大的貢獻, 直到今天, 人工智慧經過兩個寒冬以後, 我們看人工智慧帶來的變化。 首先是腦科學, 然後是認知心理學, 接著是神經生物學。 這三個學科對於人智慧的啟發更大一點,

我們把這一塊叫腦認知。 腦認知啟發的人工智慧就是目前研究的物件, 這一塊怎麼測, 按照圖靈的說法, 拿對話來測, 用一個人和一個機器人對話, 看看我們能不能知道它是人的聲音還是機器的聲音。 聽起來很簡單, 但是有多少智商, 比如你回答問題的時候是否得體, 交談的時候帶不帶情感, 你是沮喪的溝通, 還是愉悅的溝通, 所以這件事情並不那麼簡單。

1950年阿蘭圖靈寫了一篇文章, 可以看出來, 圖靈測試本質上就是交互智能的測試。 一直到2014年, 聊天機器人尤金古斯特曼發佈了。 還有做詩, 給你一個上下連對橫批, 分別不出來是人做的還是機器人做的, 是不是可以說這是圖靈測試。 但是有一個問題, 你的打油詩是水準很高的詩,

這個智能是怎麼測試的。 今天上午微軟報告特別強調了在語音方面的智慧處理, 麻省電腦實驗室做了一個機器製作的聲音的實驗, 把物體碰撞的不同聲音, 把一個特定人的聲音讓機器人產生, 達到了以假亂真的目的。 如果我們用大資料, 用深度學習訓練一個機器人, 讓它達到某個特定人的說話水準, 它發出的聲音就是虛擬組織的聲音, 這個事情我們以前表演過, 我記得科大訊飛做過這樣的演示。

還有一個很重要的事情, 像中小學生寫作文, 有一個批改網, 一萬人, 一百萬人同時寫一個文章, 看看哪個文章拿冠軍, 這時候有機器人閱卷, 跟人的閱卷有什麼差別, 怎麼樣即時的交互, 批改這個作文,

怎麼樣打分, 還要形成評語, 都能達到以假亂真的程度。 所以圖靈測試又被提上了話題, 尤其重要的是, 最近全世界都在做智慧駕駛, 無人駕駛, 駕駛驅動的圖靈測試怎麼測。 如果我們在路上看到一台汽車, 你是否分辨不出是機器人開的還是人開的?你是否分辨一個新手或者是老司機?是A駕照還是C駕照?圖靈測試在後圖靈時代已經進入了我們的生活。

谷歌公司是無人駕駛的領頭羊, 2015年就聲稱跑了100萬英里, 達到人類75年的駕齡了, 但遇到一個最基本的問題, 無人車上路怎麼樣獲得駕照, 駕駛認知度量已經成為交管部門當務之急的問題, 對我們科技工作者來說, 腦認知如何度量, 這是一個非常重要的科學問題。 假如我們把圖靈測試的這個人變成一個自動駕駛儀,

你區別不出是智慧駕駛的汽車還是無人駕駛, 那能不能叫圖靈測試, 如果測試者坐在直升飛機上, 看交通流, 車子往前走, 你區別不出哪一輛車是人開的, 哪一輛車是機器人開的, 可不可以說就達到了人的水準呢。 圖靈測試進入日常生活, 進入尋常老百姓家已經不奇怪了, 這裡列出了一大堆需要我們識別的測試, 比如網上聊天機器人, 你用語句搜索, 它把答案變成語音還給你, 因為問出現了搜尋引擎和語音智慧的發展, 使我們隨時可以聽到聲音, 這到底是人跟我們聊天, 還是機器人跟我們聊天, 是機器人跟我說話還是人在說話, 是機器人在翻譯還是人在翻譯, 所以這就涉及到圖靈測試的問題。遠端醫療把我們可穿戴的傳感設備,把你的物理參數送上去以後,它給你開的藥方,怎麼知道是專家開的還是機器人開的。你在家裡的時候,孩子在網上做輔導或者諮詢,你怎麼知道這個輔導老師是人還是機器人等等。所以圖靈測試進入日常生活,人類已經進入後圖靈的圖靈測試。無論是機器對話,機器寫詩還是自動駕駛,有一點必須堅持,那就是允許測試者現場監督和交互,測試者可以現場改變紅綠燈,看看車能不能停下來,可以製造一個干擾的汽車障礙,看看能不能避障。所以現場介入的交互是必須的,我們拿駕照的時候,當你路考的時候,同樣兩個人,水準差不多,一個人拿到駕照了,一個人沒有拿到駕照,考官說你不行,你剛才超車的時候頭沒有往後看,我們規定頭要往後看的,所以下次再考,但是你態度好一點,你記住了,這一次過了就可以了,所以我們認為圖靈測試本質上儘管存在客觀性,但是必然帶有主觀性,如果一個駕駛員老不合格,這就會受到質疑,何況駕照還可以收回,所以對圖靈測試應該用這樣的觀點來看。

駕駛圖靈測試的現實意義非常重要,隨著機器換人時代的到來,有這樣一個問題,相比較而言,汽車自動化程度比較高,一個駕駛員怎麼樣通過方向盤油門的動作改變習慣的,常年的考駕照的測試,已經積累了豐富的經驗,駕駛圖靈測試可以成為圖靈測試的起始點。汽車工程師學會有一個非常自動駕駛的等級區分,分成L0到L5。上面兩個是人駕駛,下面三個是機器人駕駛,有的廠家宣稱我要做L4的自動駕駛,有人說我只能做L3,我覺得輔助駕駛挺好,所以有一個問題,就是圖靈測試的問題。自動駕駛的等級轉換點如何度量,掌握權交界點如何度量,5級分類可操作點在哪裡,要規定100個駕駛視窗還是1000個駕駛視窗,這還真是一個問題。我們在北京可以看到很多特斯拉的車,有的賣80萬,有的賣120萬,你問駕駛員你自動駕駛了嗎,基本上沒有,因為特斯拉聲稱是L2等級,需要駕駛員的手放在方向盤上,保持注意力,如果不這樣幹,出了事還是駕駛員的。蘋果公司在加州測試是1000英里,0.2次干預,也就是北京到深圳來回一趟只幹兩次,所以圖靈測試的問題是一個現實的問題。

人的智商到底是怎麼樣表現的,生物學家告訴我們,在微觀,宏觀維度上有不同的表現。比如說當我們看檯子上寫的人工智慧,你腦子裡的興奮區也許在這個地方。當你耳朵裡聽到人工智慧這個詞興奮度在這個地方,什麼也沒有聽說,你自己想,興奮區就更多了,所以告訴大家,記憶很重要,一個駕駛員頭腦裡記錄了多少場景,能夠應付多少事件,怎麼學習的,這點很重要。再一個,當你看周圍場景的時候,駕駛員是有選擇性注意的,同樣一個場景,小孩子和一個經驗駕駛員看,注意點是不一樣的。我們很多人都做機器視覺,有人說是電腦視覺,確切說是圖像的處理和理解,我們叫做先視後覺,它無特定的任務驅動,所以我們進行分類,聚類,進行一些識別,形成一個全域的認知,現在很火。但是人類認知難道都是這樣的嗎?不是的,因為我們在做無人駕駛的時候,有一條堅定的信念,叫做感測器不完美,是我們確定的一條原則,不要想著哪個感測器是完美無缺的,分佈在車體各部位都認為看到了全域。生物視覺和機器視覺的差別,觀而不覺,無視後覺,邊視邊覺,先覺後視。生物視覺選擇性注意當中,我們經常聽到,大範圍優先,或者大尺度有限,當你看一幅圖的時候,大圖很重要,細微的地方並不重視,這是優先點不重要。還有,當你看到一個圖像的時候,掉下來的部分你很注意,這是一個圓的,方的長的,還有一種差異優先。我們的問題是,在選擇注意力的時候,這幾個問題碰到一起到底誰優先,我們研究的結果認為,真正的是記憶優先,你頭腦裡記憶的東西對當前情景會發生很大的注意,上午很多人研究感知的智慧,沒有人研究認知的智慧,對不起,我們就在研究認知的智慧。腦認知的主要外面表示在如何聽說和如何看,腦認知的內涵是想,想的時候有三種認知,記憶認知,計算認知和交互認知,我在一個場合說了一點電腦負面的話,我們人類對電腦的追求有一點貪得無厭,現在這麼快,我們還要更快,但是我們沒有用精力研究記憶和交互,這是一個遺憾。我們在研究計算的同時,應該花更多的精力研究記憶和交互,這才是受腦認知啟發的人工智慧。

我們認為人類認知沒有你想想的那麼複雜,用一句話,一件事情反復的裝進你的頭腦裡,你就形成了自己的認知,記憶是腦認知的核心,遺忘是人類智慧的顯著表現,沒有遺忘腦子將不堪重負。神經生物學家告訴我們,人類記憶是分區的,瞬間記憶,工作記憶,場景記憶,有不同的劃分的區域和方法。遺忘是對記憶的不能再認和回憶,因此我們應該研究遺忘、記憶、存儲,認知過程可用卷積表徵體現出來。我個人定義了一個很重要的公式,記憶是認知函數和遺忘記憶的卷積。我提出用認知學的物理方法研究人的遺忘,一個圖片怎麼實現遺忘的,在你的記憶裡怎麼恢復的,這件事情應該下決心研究清楚。感覺記憶是非常豐富的,但是也是瞬間的,工作記憶是在海馬體裡面,它和學習有很大的關聯。大腦的皮層的記憶已經被抽象化了,所以人工智慧的學者不能簡單研究計算,還要研究記憶,不但要研究學習和遺忘,還要研究三個不同記憶區的劃分方法。要研究工作記憶和場景記憶,怎麼樣幫助當前的瞬間感知。人腦的計算沒有什麼複雜的變化,就是一種相似計算,是我們複雜化了。交互是腦認知的重要形態,交互的力度不一樣,各有各的不同,怎麼樣實現轉換。人在神經網路交互的同時,還有與外面世界的交互,獲得心得感知,所以交互只有二重性。對於無人駕駛來說,你要從人的駕駛認知必須回答的問題,人腦是如何定位的。大家都知道,做無人駕駛最難的技術,就是即時定位,我們把大的坐標系叫做上帝坐標系,每個人看的都一樣,我們的智慧體是以它為基礎的認知,因此我們提出對周邊環境進行即時定位,以及影射,這樣才能知道我這輛車當前應該在什麼地方採取什麼動作。語言我們認為是圖像認知在不同抽象中的語義標注。要構造不同尺度連接組的,三位一體的多個多層的卷積網路。

這時候我們看看電腦的局限性,電腦最主要的是CPU,腦認知的單元每層都有記憶智慧,計算智慧和交互智慧,這樣才能建立起來。我們的觀點和特斯拉不一樣,和穀歌有區別,和英特爾也有不同,我們認為八個字,無人駕駛,難在擬人。無人駕駛不僅僅是車,不是做自動化就可以了,自動化遇到了天花板,人工智慧來了。

我們有一點感歎,現在的汽車可以做到100馬力甚至更高,但是汽車真的不如馬的認知,馬是認知主體,老馬識途,車不如馬,現在無人駕駛遇到最大的痛點就是最後一公里,回不來,共用單車回不來,將來共用汽車,最後一公里回不來,共用汽車的商業化用途就無解。因此,要想實現無人駕駛為主的駕駛,最根本的問題到底是解決車還是解決人,我們發出一點不同的聲音,如果做解決車的問題,就把車的自動化做好,我們做一個軟體定義的機器,實現無人駕駛。如果解決人的問題,那就必須具有記憶,決策和行為能力的認知主體,進行自主駕駛,一字之差,差之毫釐,自動化學者和人工智慧學者是有不同的觀點的。汽車的行為是由駕駛員決定的,無人駕駛難在擬人,因此我們要研究駕駛員行為學和駕駛員心理學,當在爆胎的時候,駕駛員的動作恰當嗎,我們要研究駕駛員的感知、記憶、控制和行為技巧,而不是一味的改良車輛動力學性能,實現自動駕駛。

我們看看駕駛員的行為學和心理學,這張圖是在自動駕駛之前,在交通運輸裡就有的,專門研究駕駛員的行為學和心理學,分為感知域,認知域,行為域,現在把感知智慧適應以後的結果演化成駕駛透視圖,通過深度學習或者演算法,實現對方向盤和油門的控制,然後我們把駕駛員的駕駛技巧,怎麼樣省油,坐著舒服,就是有技巧的駕駛,怎麼樣使這個車子開的平穩,我們自然科學基金會組織全國八九次的比賽,考慮到裁判指標,圖靈測試的指標,我們檢測4個S,靠這4個S形成圖靈測試,拿出一個表,決定誰是冠軍,誰是亞軍。現在我們在做認知領域的深度學習,駕駛認知的核心是學習還是記憶,生活是記憶,駕駛也是記憶,駕駛員開車的時候都是在算帳嗎,所以記憶很重要。每次駕駛都會結合對過去駕駛的記憶,學習是什麼,學習是理解知識,形成記憶的交互過程,理解是資訊的認知或已有認知的結果,而記憶彌散在神經網路之中,不去研究這樣的問題,做出的決策和結果出路不大。駕駛員的經驗和臨場處理能力必須由駕駛員自己替代。我們現在開始往記憶和交互上發展,當然計算也是很重要,有的單位說我們做一個機器人作業系統,用它支撐駕駛員,作業系統ROS固然重要,但是它不能代表駕駛員。如果要說駕駛員的注意力,釋放駕駛員的認知,必須有一個物化駕駛員的認知,我們把特定的駕駛認知叫做駕駛腦,這樣以來就會注意力集中,永遠專注,永不疲勞,原來駕駛員發生的事故稱之為人類第一殺手,也就不再存在,這該多好。

駕駛認知,自動駕駛是機器駕駛,它物化了駕駛員的認識,實現了無人駕駛。我們想一想,自動駕駛如果是在地鐵比較好,因為鐵路是它的,還有網路調度,如果是高鐵,也可以做自動駕駛,因為道路是封閉的,調度能力很強。如果是飛機也可以做自動駕駛,唯獨汽車不行,因為汽車是你個人的代步工具,它在開放的不確定性的環境下,常常會遇到大雪、大霧、大雨。比如說冰雪,還有人為的紅綠燈失效,道路施工,車輛醉駕等等,如果不能處理這些能力,做自動駕駛可能難以勝任。有經驗的駕駛員,標杆駕駛員能夠靈活處置,自動駕駛車怎麼樣學習呢,這是我們研究的重點。一個小孩能夠成功的抓住一隻球,這是計算出來了嗎,不是,是用了什麼演算法嗎,也不是。一次又一次的學習,操練,久而久之,智慧成為新的本領。我們認為開車和學英語本質上是相同的,熟練的司機開車,如同自己走路一樣自然,開多了,不是每天都在計算。經驗駕駛員,不但要符合駕規,安全行駛,我們還要使車子坐起來比較舒服,從A點到B點怎麼樣舒服省油,這也是駕駛員重要的技巧。因此我們發明了一個單詞,Driving Brain,不同的人開車行為習慣不一樣,我們認為自駕車應該有個性,好像我們每個人開車都有個性一樣,如果你不強調開車的水準,我們可以找標杆駕駛員開車,這也是可以的。駕駛技能的習得通常通過認知,關聯,自主三個因素決定的。如果像特斯拉一樣,把感測器放在車裡,讓人工開車,開了兩年以後,拿回來一學習,再放回去讓它和你開車一樣。在路上的行為就成了自己的行為,人的感知和車的行為達到了合一的境界,這是我們追求的目標。

我們十多年的自動駕駛的生涯告訴我們,這件事情很重要,如果沒有的話,我們仍然會恐慌、迷茫,今天做的很好的,明天可能就做不好了。感知認知和行為有一個比較好的回饋過程,從動態感知到態勢分解,到自主決策,這個期間場景記憶,功能記憶都起到很重要的作用。四類感測器,分別是雷射雷達,攝象頭感測器,還有車姿感測器,還有GPS感測器,這代表我們的感知系統。而認知系統裡,既有駕駛技術,還有各種各樣的記憶棒,我們利用當前的駕駛態勢和時間序列表決策當前的認知,形成認知箭頭,控制車的動力和行為,這塊叫做小腦,因為它已經有駕駛技巧了,從感知到認知到行動,再感知到認知到行動。可先利用微電子技術,採用GPU+CPU+FPGA+ASIC機構,生產專用晶片和板卡,2016年研發的駕駛腦V1.0。原來開始開車準備時間十幾分鐘,現在我們開車啟動時間只要22秒,我們終於開始我們自己的發明,就是駕駛腦,它是給你拿駕照的,它是給你積累駕駛技能的,它是買路熟的,它是個性化駕駛和標杆駕駛,這些東西怎麼靠自動駕駛完成的呢,這就是我們在全世界的自動駕駛的浪潮中發出了自己微弱的聲音。我們認為人工智慧的使命是加速汽車向人機交互的轉變。有了駕駛腦,有可能使汽車成為駕駛員自己,這是我們人類追求非常有理想,有意義的科技,我們很多人買聊天機器人,我們想汽車也應該是這樣的。智慧駕駛專用實驗與評估環境,全國已經批准了7個實驗場,這很有可能發展成為賽車手和賽車機器人的賽車場。

機器人換人帶來一個新的行業,就是後圖靈時代,也許是人機共生,共融,共發展的時候了。如果人腦的特定問題域的認知能力可以先局部地得到解決,比如駕駛問題,寫作問題,學英語問題等等。如果我們做一個流動大巴車,我們安排一個駕駛腦,安排一個聊天腦,不但會開車還會導遊,這樣下去,千千萬萬個特定的機器人認知腦,通過移動互聯網,雲計算和大資料,是不是可以倒逼變成一個通用的人工智慧呢,或者強人工智慧呢,我們一起來拭目以待,謝謝大家。

CAAI原創 丨 作者李德毅

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

交叉、 融合、 相生 、 共贏

所以這就涉及到圖靈測試的問題。遠端醫療把我們可穿戴的傳感設備,把你的物理參數送上去以後,它給你開的藥方,怎麼知道是專家開的還是機器人開的。你在家裡的時候,孩子在網上做輔導或者諮詢,你怎麼知道這個輔導老師是人還是機器人等等。所以圖靈測試進入日常生活,人類已經進入後圖靈的圖靈測試。無論是機器對話,機器寫詩還是自動駕駛,有一點必須堅持,那就是允許測試者現場監督和交互,測試者可以現場改變紅綠燈,看看車能不能停下來,可以製造一個干擾的汽車障礙,看看能不能避障。所以現場介入的交互是必須的,我們拿駕照的時候,當你路考的時候,同樣兩個人,水準差不多,一個人拿到駕照了,一個人沒有拿到駕照,考官說你不行,你剛才超車的時候頭沒有往後看,我們規定頭要往後看的,所以下次再考,但是你態度好一點,你記住了,這一次過了就可以了,所以我們認為圖靈測試本質上儘管存在客觀性,但是必然帶有主觀性,如果一個駕駛員老不合格,這就會受到質疑,何況駕照還可以收回,所以對圖靈測試應該用這樣的觀點來看。

駕駛圖靈測試的現實意義非常重要,隨著機器換人時代的到來,有這樣一個問題,相比較而言,汽車自動化程度比較高,一個駕駛員怎麼樣通過方向盤油門的動作改變習慣的,常年的考駕照的測試,已經積累了豐富的經驗,駕駛圖靈測試可以成為圖靈測試的起始點。汽車工程師學會有一個非常自動駕駛的等級區分,分成L0到L5。上面兩個是人駕駛,下面三個是機器人駕駛,有的廠家宣稱我要做L4的自動駕駛,有人說我只能做L3,我覺得輔助駕駛挺好,所以有一個問題,就是圖靈測試的問題。自動駕駛的等級轉換點如何度量,掌握權交界點如何度量,5級分類可操作點在哪裡,要規定100個駕駛視窗還是1000個駕駛視窗,這還真是一個問題。我們在北京可以看到很多特斯拉的車,有的賣80萬,有的賣120萬,你問駕駛員你自動駕駛了嗎,基本上沒有,因為特斯拉聲稱是L2等級,需要駕駛員的手放在方向盤上,保持注意力,如果不這樣幹,出了事還是駕駛員的。蘋果公司在加州測試是1000英里,0.2次干預,也就是北京到深圳來回一趟只幹兩次,所以圖靈測試的問題是一個現實的問題。

人的智商到底是怎麼樣表現的,生物學家告訴我們,在微觀,宏觀維度上有不同的表現。比如說當我們看檯子上寫的人工智慧,你腦子裡的興奮區也許在這個地方。當你耳朵裡聽到人工智慧這個詞興奮度在這個地方,什麼也沒有聽說,你自己想,興奮區就更多了,所以告訴大家,記憶很重要,一個駕駛員頭腦裡記錄了多少場景,能夠應付多少事件,怎麼學習的,這點很重要。再一個,當你看周圍場景的時候,駕駛員是有選擇性注意的,同樣一個場景,小孩子和一個經驗駕駛員看,注意點是不一樣的。我們很多人都做機器視覺,有人說是電腦視覺,確切說是圖像的處理和理解,我們叫做先視後覺,它無特定的任務驅動,所以我們進行分類,聚類,進行一些識別,形成一個全域的認知,現在很火。但是人類認知難道都是這樣的嗎?不是的,因為我們在做無人駕駛的時候,有一條堅定的信念,叫做感測器不完美,是我們確定的一條原則,不要想著哪個感測器是完美無缺的,分佈在車體各部位都認為看到了全域。生物視覺和機器視覺的差別,觀而不覺,無視後覺,邊視邊覺,先覺後視。生物視覺選擇性注意當中,我們經常聽到,大範圍優先,或者大尺度有限,當你看一幅圖的時候,大圖很重要,細微的地方並不重視,這是優先點不重要。還有,當你看到一個圖像的時候,掉下來的部分你很注意,這是一個圓的,方的長的,還有一種差異優先。我們的問題是,在選擇注意力的時候,這幾個問題碰到一起到底誰優先,我們研究的結果認為,真正的是記憶優先,你頭腦裡記憶的東西對當前情景會發生很大的注意,上午很多人研究感知的智慧,沒有人研究認知的智慧,對不起,我們就在研究認知的智慧。腦認知的主要外面表示在如何聽說和如何看,腦認知的內涵是想,想的時候有三種認知,記憶認知,計算認知和交互認知,我在一個場合說了一點電腦負面的話,我們人類對電腦的追求有一點貪得無厭,現在這麼快,我們還要更快,但是我們沒有用精力研究記憶和交互,這是一個遺憾。我們在研究計算的同時,應該花更多的精力研究記憶和交互,這才是受腦認知啟發的人工智慧。

我們認為人類認知沒有你想想的那麼複雜,用一句話,一件事情反復的裝進你的頭腦裡,你就形成了自己的認知,記憶是腦認知的核心,遺忘是人類智慧的顯著表現,沒有遺忘腦子將不堪重負。神經生物學家告訴我們,人類記憶是分區的,瞬間記憶,工作記憶,場景記憶,有不同的劃分的區域和方法。遺忘是對記憶的不能再認和回憶,因此我們應該研究遺忘、記憶、存儲,認知過程可用卷積表徵體現出來。我個人定義了一個很重要的公式,記憶是認知函數和遺忘記憶的卷積。我提出用認知學的物理方法研究人的遺忘,一個圖片怎麼實現遺忘的,在你的記憶裡怎麼恢復的,這件事情應該下決心研究清楚。感覺記憶是非常豐富的,但是也是瞬間的,工作記憶是在海馬體裡面,它和學習有很大的關聯。大腦的皮層的記憶已經被抽象化了,所以人工智慧的學者不能簡單研究計算,還要研究記憶,不但要研究學習和遺忘,還要研究三個不同記憶區的劃分方法。要研究工作記憶和場景記憶,怎麼樣幫助當前的瞬間感知。人腦的計算沒有什麼複雜的變化,就是一種相似計算,是我們複雜化了。交互是腦認知的重要形態,交互的力度不一樣,各有各的不同,怎麼樣實現轉換。人在神經網路交互的同時,還有與外面世界的交互,獲得心得感知,所以交互只有二重性。對於無人駕駛來說,你要從人的駕駛認知必須回答的問題,人腦是如何定位的。大家都知道,做無人駕駛最難的技術,就是即時定位,我們把大的坐標系叫做上帝坐標系,每個人看的都一樣,我們的智慧體是以它為基礎的認知,因此我們提出對周邊環境進行即時定位,以及影射,這樣才能知道我這輛車當前應該在什麼地方採取什麼動作。語言我們認為是圖像認知在不同抽象中的語義標注。要構造不同尺度連接組的,三位一體的多個多層的卷積網路。

這時候我們看看電腦的局限性,電腦最主要的是CPU,腦認知的單元每層都有記憶智慧,計算智慧和交互智慧,這樣才能建立起來。我們的觀點和特斯拉不一樣,和穀歌有區別,和英特爾也有不同,我們認為八個字,無人駕駛,難在擬人。無人駕駛不僅僅是車,不是做自動化就可以了,自動化遇到了天花板,人工智慧來了。

我們有一點感歎,現在的汽車可以做到100馬力甚至更高,但是汽車真的不如馬的認知,馬是認知主體,老馬識途,車不如馬,現在無人駕駛遇到最大的痛點就是最後一公里,回不來,共用單車回不來,將來共用汽車,最後一公里回不來,共用汽車的商業化用途就無解。因此,要想實現無人駕駛為主的駕駛,最根本的問題到底是解決車還是解決人,我們發出一點不同的聲音,如果做解決車的問題,就把車的自動化做好,我們做一個軟體定義的機器,實現無人駕駛。如果解決人的問題,那就必須具有記憶,決策和行為能力的認知主體,進行自主駕駛,一字之差,差之毫釐,自動化學者和人工智慧學者是有不同的觀點的。汽車的行為是由駕駛員決定的,無人駕駛難在擬人,因此我們要研究駕駛員行為學和駕駛員心理學,當在爆胎的時候,駕駛員的動作恰當嗎,我們要研究駕駛員的感知、記憶、控制和行為技巧,而不是一味的改良車輛動力學性能,實現自動駕駛。

我們看看駕駛員的行為學和心理學,這張圖是在自動駕駛之前,在交通運輸裡就有的,專門研究駕駛員的行為學和心理學,分為感知域,認知域,行為域,現在把感知智慧適應以後的結果演化成駕駛透視圖,通過深度學習或者演算法,實現對方向盤和油門的控制,然後我們把駕駛員的駕駛技巧,怎麼樣省油,坐著舒服,就是有技巧的駕駛,怎麼樣使這個車子開的平穩,我們自然科學基金會組織全國八九次的比賽,考慮到裁判指標,圖靈測試的指標,我們檢測4個S,靠這4個S形成圖靈測試,拿出一個表,決定誰是冠軍,誰是亞軍。現在我們在做認知領域的深度學習,駕駛認知的核心是學習還是記憶,生活是記憶,駕駛也是記憶,駕駛員開車的時候都是在算帳嗎,所以記憶很重要。每次駕駛都會結合對過去駕駛的記憶,學習是什麼,學習是理解知識,形成記憶的交互過程,理解是資訊的認知或已有認知的結果,而記憶彌散在神經網路之中,不去研究這樣的問題,做出的決策和結果出路不大。駕駛員的經驗和臨場處理能力必須由駕駛員自己替代。我們現在開始往記憶和交互上發展,當然計算也是很重要,有的單位說我們做一個機器人作業系統,用它支撐駕駛員,作業系統ROS固然重要,但是它不能代表駕駛員。如果要說駕駛員的注意力,釋放駕駛員的認知,必須有一個物化駕駛員的認知,我們把特定的駕駛認知叫做駕駛腦,這樣以來就會注意力集中,永遠專注,永不疲勞,原來駕駛員發生的事故稱之為人類第一殺手,也就不再存在,這該多好。

駕駛認知,自動駕駛是機器駕駛,它物化了駕駛員的認識,實現了無人駕駛。我們想一想,自動駕駛如果是在地鐵比較好,因為鐵路是它的,還有網路調度,如果是高鐵,也可以做自動駕駛,因為道路是封閉的,調度能力很強。如果是飛機也可以做自動駕駛,唯獨汽車不行,因為汽車是你個人的代步工具,它在開放的不確定性的環境下,常常會遇到大雪、大霧、大雨。比如說冰雪,還有人為的紅綠燈失效,道路施工,車輛醉駕等等,如果不能處理這些能力,做自動駕駛可能難以勝任。有經驗的駕駛員,標杆駕駛員能夠靈活處置,自動駕駛車怎麼樣學習呢,這是我們研究的重點。一個小孩能夠成功的抓住一隻球,這是計算出來了嗎,不是,是用了什麼演算法嗎,也不是。一次又一次的學習,操練,久而久之,智慧成為新的本領。我們認為開車和學英語本質上是相同的,熟練的司機開車,如同自己走路一樣自然,開多了,不是每天都在計算。經驗駕駛員,不但要符合駕規,安全行駛,我們還要使車子坐起來比較舒服,從A點到B點怎麼樣舒服省油,這也是駕駛員重要的技巧。因此我們發明了一個單詞,Driving Brain,不同的人開車行為習慣不一樣,我們認為自駕車應該有個性,好像我們每個人開車都有個性一樣,如果你不強調開車的水準,我們可以找標杆駕駛員開車,這也是可以的。駕駛技能的習得通常通過認知,關聯,自主三個因素決定的。如果像特斯拉一樣,把感測器放在車裡,讓人工開車,開了兩年以後,拿回來一學習,再放回去讓它和你開車一樣。在路上的行為就成了自己的行為,人的感知和車的行為達到了合一的境界,這是我們追求的目標。

我們十多年的自動駕駛的生涯告訴我們,這件事情很重要,如果沒有的話,我們仍然會恐慌、迷茫,今天做的很好的,明天可能就做不好了。感知認知和行為有一個比較好的回饋過程,從動態感知到態勢分解,到自主決策,這個期間場景記憶,功能記憶都起到很重要的作用。四類感測器,分別是雷射雷達,攝象頭感測器,還有車姿感測器,還有GPS感測器,這代表我們的感知系統。而認知系統裡,既有駕駛技術,還有各種各樣的記憶棒,我們利用當前的駕駛態勢和時間序列表決策當前的認知,形成認知箭頭,控制車的動力和行為,這塊叫做小腦,因為它已經有駕駛技巧了,從感知到認知到行動,再感知到認知到行動。可先利用微電子技術,採用GPU+CPU+FPGA+ASIC機構,生產專用晶片和板卡,2016年研發的駕駛腦V1.0。原來開始開車準備時間十幾分鐘,現在我們開車啟動時間只要22秒,我們終於開始我們自己的發明,就是駕駛腦,它是給你拿駕照的,它是給你積累駕駛技能的,它是買路熟的,它是個性化駕駛和標杆駕駛,這些東西怎麼靠自動駕駛完成的呢,這就是我們在全世界的自動駕駛的浪潮中發出了自己微弱的聲音。我們認為人工智慧的使命是加速汽車向人機交互的轉變。有了駕駛腦,有可能使汽車成為駕駛員自己,這是我們人類追求非常有理想,有意義的科技,我們很多人買聊天機器人,我們想汽車也應該是這樣的。智慧駕駛專用實驗與評估環境,全國已經批准了7個實驗場,這很有可能發展成為賽車手和賽車機器人的賽車場。

機器人換人帶來一個新的行業,就是後圖靈時代,也許是人機共生,共融,共發展的時候了。如果人腦的特定問題域的認知能力可以先局部地得到解決,比如駕駛問題,寫作問題,學英語問題等等。如果我們做一個流動大巴車,我們安排一個駕駛腦,安排一個聊天腦,不但會開車還會導遊,這樣下去,千千萬萬個特定的機器人認知腦,通過移動互聯網,雲計算和大資料,是不是可以倒逼變成一個通用的人工智慧呢,或者強人工智慧呢,我們一起來拭目以待,謝謝大家。

CAAI原創 丨 作者李德毅

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

交叉、 融合、 相生 、 共贏

Next Article
喜欢就按个赞吧!!!
点击关闭提示