人機智能融合——人工智慧的未來發展方向

概要：在經歷了三次起伏（即上世紀70年代後期對數學定理證明非萬能的清醒、90年代後期對專家系統與五代機的失望、2006年深度學習掀起了新一輪的浪潮），

人們狂熱的希望逐漸踏實了很多，目光和注意力也慢慢地從癡迷科幻轉移到了一個嶄新而又富有活力的領域：人機融合智慧領域。

《三國演義》第一回:“話說天下大勢,分久必合,合久必分”。自然科學中的諸多學科之大勢也莫不如此，當人類經歷了數百年的學科精分細化之後，目前隨著人工智慧的快速發展，許多學科正在慢慢交叉融合起來。在經歷了三次起伏（即上世紀70年代後期對數學定理證明非萬能的清醒、90年代後期對專家系統與五代機的失望、2006年深度學習掀起了新一輪的浪潮），人們狂熱的希望逐漸踏實了很多，目光和注意力也慢慢地從癡迷科幻轉移到了一個嶄新而又富有活力的領域：人機融合智慧領域。

一、現有人工智慧的不足

從歷史上看，人工智慧大概分三大門派，一是以模仿大腦皮層神經網路及神經網路間的連接機制與學習演算法的聯結主義(Connectionism)，主要表現為深度學習方法，即用多隱層的處理結構處理各種大資料；二是以模仿人或生物個體、群體控制行為功能及感知-動作型控制系統的行為主義(Actionism)，主要表現為具有獎懲控制機制的強化學習方法，即通過行為增強或減弱的回饋來實現輸出規劃的表徵。三是以物理符號系統(即符號作業系統)具有產生智慧行為的充分必要條件假設（Newell and Simon,1976）和有限理性原理為代表的符號主義(Symbolicism)，主要表現為知識圖譜應用體系，即用類比大腦的邏輯結構來加工處理各種資訊和知識。

正是由於這三種人工智慧派別的取長補短，再結合蒙特卡洛演算法（兩種隨機演算法中的一種，如果問題要求在有限採樣內，必須給出一個解，但不要求是最優解，那就要用蒙特卡羅演算法。反之，如果問題要求必須給出最優解，但對採樣沒有限制，那就要用拉斯維加斯演算法。）使得特定領域的人工智慧系統超過人類的智慧成為了可能，如IBM的Waston問答系統和Google Deepmind的AlphaGo圍棋系統等。儘管這些人工智慧系統取得了驕人的績效，但仍有不少缺陷和不足之處，而且還有可能產生很大的隱患和危險。

首先先分析一下讓人工智慧在當下火熱燙手的聯結主義。當前的人工智慧之所以高燒不退，其主要的力量源泉是2006年Hinton提出的深度學習方法大大提高了圖像識別、語音辨識等方面的效率，

並在無人駕駛、“智慧+”某些產業中切實體現出助力作用。然而，任何一種演算法都有其不完備性，深度學習演算法也不例外。該方法的局限性和不足是最好使用在具有可微分（函數連續）、強監督（樣本資料標定很好、樣本類別/屬性/評價目標恒定）學習、封閉靜態系統（干擾少、魯棒性好、不複雜）任務下，而對於不可微分、弱監督學習（樣本分佈偏移大、新類別多、屬性退化嚴重、目標多樣）、開放動態環境下該方法效果較差，計算收斂性不好。另外，相對於其他機器學習方法，使用深度學習生成的模型非常難以解釋。這些模型可能有許多層和上千個節點；單獨解釋每一個是不可能的。

資料科學家通過度量它們的預測結果來評估深度學習模型，但模型架構本身是個“黑盒”。它有可能會讓你在不知不覺間，失去“發現錯誤”的機會。再者，如今的深度學習技術還有另一個問題，它需要大量的資料作為訓練基礎，而訓練所得的結果卻難以應用到其他問題上。如何在各種現實情境任務中恰如其分地解決這些問題，就需要結合其他的方法取長補短、協調配合。

其次，對於行為主義中的增強學習，它的優點是能夠根據交互作用中的得失進行學習績效的累積，與人類真實的學習機制相似。該方法最主要的缺點是把人的行為過程看的太過簡單，實驗中往往只是測量簡單的獎懲回饋過程，有些結論不能遷移到現實生活中，所以往往外部效度不高。還有，行為主義銳意研究可以觀察的行為,但是由於它的主張過於極端,不研究心理的內部結構和過程,否定意識的重要性,進而將意識與行為對立起來，進而限制了人工智慧的縱深發展。

最後是符號主義及其知識圖譜，符號主義屬於現代人工智慧範疇，基於邏輯推理的智慧模擬方法模擬人的智慧行為。該方法的實質就是模擬人的大腦抽象邏輯思維，通過研究人類認知系統的功能機理，用某種符號來描述人類的認知過程，並把這種符號輸入到能處理符號的電腦中，就可以類比人類的認知過程，從而實現人工智慧。可以把符號主義的思想簡單的歸結為“認知即計算”。從符號主義的觀點來看，知識是資訊的一種形式,是構成智慧的基礎，知識表示、知識推理、知識運用是人工智慧的核心，知識可用符號表示,認知就是符號的處理過程，推理就是採用啟發式知識及啟發式搜索對問題求解的過程，而推理過程又可以用某種形式化的語言來描述，因而有可能建立起基於知識的人類智慧和機器智慧的同一理論體系。

目前知識圖譜領域面臨的主要挑戰問題包括：1.知識的自動獲取；2.多源知識的自動融合；3.面向知識的表示學習；4.知識推理與應用。符號主義主張用邏輯方法來建立人工智慧的統一理論體系，但卻遇到了“常識”問題的障礙，以及不確知事物的知識表示和問題求解等難題，因此，受到其他學派的批評與否定。

從上述人工智慧三大流派的特點及缺點分析，我們不難看出：人的思維很難在人工智慧現有的理論框架中得到解釋。那該如何做才有可能尋找到一條通往智慧科學研究光明前程之道呢？下面我們將針對這個問題展開最底層的思考和討論。

二、約束智慧科學發展的瓶頸是什麼

人工智慧之父圖靈的朋友和老師維特根斯坦在他著名的《邏輯哲學論》第一句就寫道：“世界是事實的總和而非事物的總和”，其中的事實指的是事物之間的關涉聯繫---關係，而事物是指包含的各種屬性，從目前人工智慧技術的發展態勢而言，絕大多數都是在做識別事物屬性方面的工作，如語音、圖像、位置、速度等等，而涉及到事物之間的各種關係層面的工作還很少，但是已經開始做了，如大資料採擷等。在這眼花繚亂的人工智慧技術中，人們常常思考著這樣一個問題：什麼是智慧？智慧的定義究竟是什麼呢？

關於智慧的定義，有人說是非存在的有，有人說是得意忘形，有人說是隨機應變，有人說是魯棒適應，有人說……,可能有一百個專家，就有一百種說法。實際上現在要形成一個大家都能接受的定義是不太可能的。但是這並不影響大家對智慧研究中的一些難點、熱點達成一致看法或共識。比如資訊表徵、邏輯推理和自主決策等方面。

一般而言，任何智慧都是從資料登錄開始的，對人而言資料就是各種刺激（眼耳鼻舌身），對機器而言資料就是各種感測器採集到的各種資料，資料是相對客觀的，而從中提煉出有價值的資料—資訊就是相對主觀的，資訊已經開始帶有人的價值觀、偏好傾向和風俗習慣。人機處理資料最大的差異在於形成資訊的表徵，機器中的資料常常是結構化歸一量化後的“標準資料”，資料表征的符號就是0、1或其他進制的數字；人採集到的資料則是各種非結構化、非一致性不同量綱種類的刺激輸入，其表徵方式是極其靈活多變的，對一朵花、一棵樹甚至可以有無限多種表徵，正可謂是“一花一世界、一樹一菩提”，而且表徵出的資訊符號是由“能指”和“所指”構成的，“能指”指具體的物理刺激形象，“所指”指資訊所反映的事物的概念及拓撲關係。比如，對於一杯水，機器可能表徵它為高度、寬度、密度、顏色等客觀數值參數，而人除此之外，還可以把它表徵為熱情、友誼、問候、送客等方面的多維內涵外延拓展，這種千差萬別的混合指向變化，機器無論如何是表徵不出的、處理不了的……所以，從智慧的源頭就可以找到人工智慧與人類智慧的根本區別之所在。

資料的變化與動態映射是感知的瓶頸，人會期望性的補償或回望性的修正，而機器就是把過去性（資料）當成當下來處理，若資料處於過程中不敏感還好些，若是臨界性資料，就常常會差之毫釐謬以千里了…資料、資訊、知識、邏輯本質上就是事物之間不同程度的關係表徵，這種表徵可以體現在人的記憶和直覺之間，也可以顯示於機器的存儲與計算之中。只不過機器資料的單一表徵從一開始就異於人的多種刺激融合，這也是機器不能產生類人意向性的主要原因：缺乏靈活的一多分有(內涵外延伸張彌聚有度自如)的表徵機制。

有人認為符號化和物件化可能是兩個不同的步驟。一個物件可以沒有符號名字，也可以有多個符號名字，一個符號可以表示多個不同物件。智慧的理解要做到符號到物件的指向性，沒有做到指向性，只是符號間關係的處理，不能算理解。實際上對人而言感與知往往是同步的，在形成習慣風俗後，物件與符號應該也是融合的。

有了資料和資訊之後，智慧的資訊處理架構就格外的重要，到目前為止，有不少大家提出了一些經典的理論或模型，例如在視覺領域，David Marr的三層結構至今仍未許多智慧科技工作者所追捧。作為視覺計算理論的創始人Marr認為：神經系統所作的資訊處理與機器相似。視覺是一種複雜的資訊處理任務，目的是要把握對我們有用的外部世界的各種情況，並把它們表達出來。這種任務必須在三個不同的水準上來理解，這就是:a.計算理論 b.演算法 c.機制(見下表)。

表 David Marr計算視覺的三層結構

計算理論

演算法

機制

資訊處理問題的定義，它的解就是計算的目標。這種計算的抽象性質的特徵。在可見世界內找出這些性質，構成這個問題的約束條件

為完成期望進行的

計算所採用的演算法

的研究。

完成演算法的物理實

體，它由給定的硬

件系統構成.機器

硬體的構架。

Marr早先提出的一些基本概念在計算理論這一級水準上已經成為一種幾乎是盡善盡美的理論。這一理論的特徵就是它力圖使人的視覺資訊處理研究變得越來越嚴密，從而使它成為一門真正的科學。

當前，在解釋人類認知過程工作機理的理論中，由卡耐基梅隆大學教授John Robert Anderson提出的ACT-R（Adaptive Control of Thought–Rational ，ACT-R）模型被認為是非常具有前途的一個理論。該理論模型認為人類的認知過程需要四種不同的模組參與，即目的模組、視覺模組、動作模組和描述性知識模組。每一個模組各自獨立工作，並且由一個中央產生系統協調。ACT-R的核心是描述性知識模組和中央產生系統。描述性知識模組存儲了個體所積累的長期不變的認識，包括基本的事實（例如“西雅圖是美國的一座城市”）、專業知識（例如“高速鐵路交通信號控制方案的設計方法”）等。中央產生式系統存儲了個體的程式性知識，這些知識以條件-動作（產生式）規則的形式呈現，當滿足一定條件時，相應的動作將被對應的模組執行，產生式規則的不斷觸發能夠保證各個模組相互配合，類比個體做出的連續認知過程。ACT-R是一種認知架構，用以模擬並理解人的認知的理論。ACT-R試圖理解人類如何組織知識和產生智慧行為。ACT-R的目標是使系統能夠執行人類的各種認知任務，如捕獲人的感知、思想和行為。

無論是David Marr的三層結構計算視覺理論，還是John Robert Anderson提出的ACT-R理論模型，以及許多解釋和類比人類認知過程的模型都存在一個共同的缺點和不足，即不能把人的主觀參數和機器/環境中的客觀參數有機地統一起來，模型的彈性不足，很難主動地產生魯棒性的適應性，更不要說產生情感、意識等更高層次的表徵和演化。當前的人工智慧與人相比除了在輸入表徵和融合處理方面的局限外，在更基本的哲學層面就存在這先天不足，即回答不了休謨問題。

休謨問題是指英國哲學家大衛.休謨（David Hume）1711年在《人性論》的第一卷和《人類理智研究》裡面提出來的。首先提出的，是個未能很好解決的哲學問題，主要是指因果問題和歸納問題，即所謂從“是”（being）能否推出“應該”（should），也即“事實”命題能否推導出“價值”命題。休謨指出，由因果推理獲得的知識，構成了人類生活所依賴的絕大部分知識。這個由休謨對因果關係的普遍、必然性進行反思所提出的問題被康得稱為“休謨問題”。休謨問題表面上是一個著名的哲學難題，實際上更是一個人工智慧的瓶頸和難點，當把資料表征為資訊時，能指就是相對客觀表示being，而所指就是主觀表達should。

從認識論角度，“應該”就是從描述事物狀態與特徵的參量（或變數）的眾多數值中取其最大值或極大值，“是”就是從描述事物狀態與特徵的參量（或變數）的眾多數值中取其任意值。從價值論角度，“應該”就是從描述事物的價值狀態與價值特徵的眾多參量（或變數）中取其最大值或極大值，“是”就是從描述事物價值是狀態與價值特徵的參量（或變數）的眾多數值中取去其任意值。

由於受偏好習慣風俗等因素的影響，即使是人類的認識論和價值論也經常出現非因果歸納和演繹（比如嚴格意義上而言，從“天行健”這個事實（being）命題是不能推出“君子必自強不息”這個價值觀（should）命題的，但是隨著時間的延續，這個類比習慣漸漸變成了有些因果的意味。）。人工智慧的優勢不僅在於存儲量大計算速度快，更重要的是它還可以從源頭沒有偏見的頭腦和認知封閉，但是要處理類似雖是由人類提出的但仍遠遠不能完美回答的休謨問題恐怕還是強機所難吧！人工智慧如果有一定的智慧，恐怕更多的應是數位邏輯語言智慧，在特定場景既定規則和統計又既定輸出的任務下可以極大提升工作效率，但在有情感、有意向性的複雜情境下仍難以無中生有、隨機應變。未來智慧科學的發展趨勢必將會是人機智能的不斷融合促進。

三、未來是人機智能的融合

人機融合智慧，簡單地說就是充分利用人和機器的長處形成一種新的智慧形式。

英國首相邱吉爾曾經說過：“你能看到多遠的過去,你就能看到多遠的未來”，所以我們有必要看看人機智能融合的過去。任何新的事物都有其產生的源泉，人機融合智慧也不例外，人機融合智慧主要起源於人機交互和智慧科學這兩個領域，而這兩個領域起源都與英國劍橋大學有著密切的關係：1940年夏，當德國轟炸機飛向倫敦之際，人機交互與智慧科學的研究序幕就被徐徐拉開了…英國人為了抵禦德國人的進攻，開始了雷達、飛機、密碼破譯方面的科技應用工作，當時在劍橋大學聖約翰學院建立了第一個研究人機交互問題的飛機座艙（即著名的Cambridge Cockpit）以解決飛行員們執行飛行任務時出現的一些錯誤和失誤，另外劍橋國王學院的畢業生圖靈領導了對德軍“恩尼格瑪”密電文的破譯…事實上，早在19世紀，劍橋大學的查理斯.巴貝奇和阿達.奧古斯塔（劍橋大學畢業生、詩人拜倫的女兒，世界第一位程式師）就開始合作機械電腦軟硬體的研製，20世紀之後，數學家羅素、邏輯學家維特根斯坦（圖靈的老師和朋友）都對智慧科學的起源和發展做出了重大的貢獻。當前人機智能融合領域比較火的兩位深度學習之父辛頓曾是劍橋大學心理系的學生、阿爾法狗之父哈撒比斯本科是劍橋電腦系畢業的……

在人機智能融合時，有一件事非常重要，就是這個人要能夠理解機器如何看待世界，並在機器的限制內有效地進行決策。反之，機器也應對配合的人比較“熟悉”，就像一些體育活動中的雙打隊友一樣，如果彼此間沒有默契，想產生化學變化般的合適融合、精確協同就是天方夜譚。有效地人機智能融合常常意味著將人的思想帶給機器，這也就意味著: 人將開始有意識地思考他通常無意識地執行的任務；機器將開始處理合作者個性化的習慣和偏好；兩者都還必須隨時隨地地隨環境的變化而變化……高山流水，電腦與心靈相互感應，充分發揮兩者的優點和長處，如人類可以打破邏輯運用直覺思維進行決策、機器能夠檢測人類感覺無法檢測到的信號能力等等。人類所理解的每一個命題，都必定是全然是由我們所獲知的各種成分所組成的。意識是一種對隱顯關係的梳理，有時表現為直覺。

人的直覺是同化、順應之間的自由轉換，能夠靈活自如地進行不完全歸納和彈性演繹，更重要的是:這一切都是由內而外的自主行為。直覺經驗本質上是一種感性，一種自動意識性關聯和得意忘形。直覺是把存在性、可能性、意向性、潛在性勾兌顯化的一種方式，也是把零碎、散化的資料資訊知識非常邏輯表徵，其中的粘合劑就是情感（機器所不具備的能力）-一種獨特的智慧--情智，直覺本質上就是通情達理，能夠隱約看見許多通過理性邏輯看不到的關係、聯繫，從而把許多平時風馬牛不相及的屬性、成分（包括主觀臆想客觀存在）關聯在一起形成某種意向性的可能存在。而機器更適合於分類聚類，利用人類部分可以描述化、程式化的形式語言實現強監督學習、構建認知模型、輔助決策等方面。當前，人機之間的理解都是單向性的，之間的學習也是，只不過逐漸開始出現了雙向性的苗頭，人機之間開始理解一些以前認為不含理解成分的物件和事物，慢慢把人的主動性與機的被動性有效地混合起來。人處理其擅長的包含“應該”（should）等價值取向的主觀資訊，機器則計算其拿手的涉及“是”（being）等規則概率統計的客觀資料，進而把休謨之問變成了一個可執行可操作的程式性問題，也是把客觀資料與主觀資訊統一起來的新機制，即需要意向性價值的時候由人來處理，需要形式化（數位化）的事實時候由機器來分擔，從而產生了一種人+機大於人、人+機大於機的效果。

人機智能融合中深度態勢感知是一個重要隘口，深度態勢感知含義是“對態勢感知的感知，是一種人機智慧，既包括了人的智慧，也融合了機器的智慧（人工智慧）”, 是能指+所指，既涉及事物的屬性（能指、感覺）又關聯它們之間的關係（所指、知覺），既能夠理解事物原本之意，也能夠明白弦外之音。它是在以Endsley為主體的態勢感知（包括資訊輸入、處理、輸出環節）基礎上，加上人、機（物）、環境（自然、社會）及其相互關係的整體系統趨勢分析，具有“軟/硬”兩種調節回饋機制；既包括自組織、自我調整，也包括他組織、互適應；既包括局部的定量計算預測，也包括全域的定性算計評估，是一種具有自主、自動彌聚效應的資訊修正、補償的期望-選擇-預測-控制體系。

相比起人工智慧來，我們更願意談人機融合智慧，也許人工智慧更偏應用和技術，談人機融合智慧則可以更基礎一些。另外，需要注意的是，人機融合智慧本身不僅僅是科學問題，還涉及到其他學科，如人文藝術、哲學，甚至還有宗教神學。還有，智慧不是人類獨有的能力，還關涉其他生命體，比如動物、植物等，那麼究竟什麼是智慧呢？美國第一屆心理學會主席威廉.詹姆斯說的一句話或許可見一斑：“智慧是一種忽略的藝術。”

單純的計算應該是沒有大的突破，認知+計算可能是未來。如果把認知看成美女，計算視作野獸，未來的智慧科學就是美女與野獸，而資料則是美女牽著野獸的韁繩。要把這樣的機遇變成現實，就需要與目前AI研究方向不同的新的研究課題，比如需要探索認知科學對於人類與動物如何學習與推理的研究，將其與計算科學結合，整合成最終能以人類的方式工作的系統。Being與should的狹義結合就是資料與知識、結構與功能、感知與推理、直覺與邏輯、聯接與符號、屬性與關係的結合，也是未來智慧體系的發展趨勢…其廣義結合是意向性與形式化、美女與野獸的結合。人工智慧的美女派主要抓關係產生的關係，野獸派主要抓屬性產生的關係。

臨界，這是一種介於有序和無序之間的狀態，是工作效率最大化的一種表現形式。人機融合智慧就是要尋找到這種平衡狀態，讓人的無序與機的有序、人的有序與機的無序相得益彰，達到安全、高效、敏捷的結果。

既然我們很多時候無從得知因果之間的關係，只能得知某些事物總是會連結在一起。那麼我們有什麼理由從對個別事例的觀察中引出普遍性的結論呢？想像力、創造力是感性與理性的介面，也許人機智能的融合可以實現一定程度上主客觀、感性與理性的相互適應性融合吧！

有些結論不能遷移到現實生活中，所以往往外部效度不高。還有，行為主義銳意研究可以觀察的行為,但是由於它的主張過於極端,不研究心理的內部結構和過程,否定意識的重要性,進而將意識與行為對立起來，進而限制了人工智慧的縱深發展。