獨家｜語義視角下的跨學科與跨界資料認知

在這個新技術、新商業、新城市、新環境等加速反覆運算的智慧時代，不斷湧現的革新挑戰著人們傳統的意識和粗淺的認知。本期由清華-青島資料科學研究院主辦，中國科促會清數大資料產業聯盟、清華校友AI大資料專委會（籌）承辦的清華大資料“應用·創新”系列講座將從語義視角切入資料認知領域，試圖尋找跨學科與跨界的共識機制，探尋學術與商業合作過程中所需要的能力。

嘉賓簡介：清華-青島資料科學研究院大資料基礎設施研究中心副主任趙強老師，其本人為北京大學計算語言學博士，研究方向為語義學， 2012年起轉向高校和企業的多學科跨界融合產學研對接工作，提出社會化大規模實驗的新概念，參與北大、清華、復旦等多項產業前沿項目，在知識圖譜、語義網路、區塊鏈應用、性格匹配、情感計算、文本語義分析等方向上有深入探索。

本期講座將圍繞大資料基礎設施、社會化大資料試驗和場景資料化三個方面展開。以下是演講實錄：

後臺回復關鍵字“1107”，下載完整版PPT。

“大資料基礎設施要解決的，是面向積累、面向需求形成標準或者共識的那一部分。 ”

隨著各種各樣的大資料專案的增加，我們開始關心它的資料視覺化是不是夠炫，政務項目是不是做得很好，或者是關心某一些特定的項目是不是能夠賺錢。但是事實上絕大多數的專案都需要大資料基礎設施的支撐，這個詞不常見，但是它將慢慢地成為一個非常重要的事情。在某種意義上，大資料基礎設施的互用性是非常大的，譬如說一個資料中心，或是SDN軟體定義網路，或是資料的智慧調度，或是資料安全以及在資料中心的日誌維修等方面，

都會有大量的知識。用我們中心主任徐葳老師的話來說，大資料基礎設施基本上就是隱藏在整個光鮮的應用背後一系列的苦工作，平時大家看不到，但是一旦大家能感覺得到，這就一定是出了大問題。

我個人的學習經歷是從89年進入北大之後， 95年、96年開始做編詞典的工作，做漢語語法資訊詞典和漢語語義詞典，現在比較時髦叫語義網、知識圖譜，這是一種能夠讓人和機器都讀懂的、具有共性的、處於整個資料應用層底層的技術和資源，是大資料基礎設施層的內容。那麼，大資料基礎設施都包括哪些內容呢？

可以看出，大資料基礎設施包涵很多技術層面，但都是底層的非應用型的技術。大資料基礎設施要解決的，是面向積累、面向需要可能形成的標準，或者共識這樣的部分，需要長期的積累，假如說這些技術有面向應用的地方，可能就不是大資料基礎設施需要去涉及的。下圖中紫色的部分，就是我們認為大資料基礎設施層要做的一些工作，

它所涉及的層面也非常得多。

大資料基礎設施的定位與認知：

大資料基礎設施是面向資料獲取、資料分析和資料應用的創新性系統工程。

一方面指支撐大資料應用和大資料產業的基礎設施，即通過對雲計算、SDN/NFV、分散式資料中心、可定制伺服器以及人工智慧等領域的技術整合創新、工程實踐、標準發佈、社區建設，創造一系列高效率、高可用性和智慧化的資料產業雲網一體支撐性平臺。

另一方面指用大資料和人工智慧的方法，解決基礎設施運行過程中的問題，為資料產業的安全、運維、生產實驗環境、服務和運營體系提供價值。

兩方面互為促進，構成完整的大資料基礎設施價值觀、方法論和影響域，彙聚產業和科研人才，解決產業和科研問題。

我個人目前傾向於研究語義網或知識圖譜，比如中繼資料和資料治理，在一個行業裡邊我們試圖要為資料的資料做一些定義時，一個完整的資料集以及術語的標準化，還有術語相互之間的關係，就是知識圖譜可以提供解決方案的。知識圖譜在應用層的代表主要是谷歌、百度的語義搜索，它們的目標就是想把所有的不分門類的知識都能夠統一地變成一個巨大的圖譜。但知識和知識相互之間有可能會衝突，而且每一個知識的應用場景是有限的，因此我們現在做知識圖譜仍是要面向行業，而不是全部。

最近一兩年，隨著金融科技的興起，一些國內的新三板、A股要去分析和挖掘海量的文本，這個時候知識圖譜技術開始被重視起來。知識圖譜在金融科技領域的應用，就是把海量的文本累積起來，把裡面的實體和關係、特徵都放到資料庫裡面。比如說一個上市公司，或者是一個大的集團，它的背後可能會存在的一些關聯性。經常炒股的人都聽過“萬象系”、“德隆系”，這些事情如果在知識圖譜當中被發現，這就能夠成為證券監測裡邊所謂的輿情監測的部分，説明相關機構和政府部門去發現異常交易，去發現一些潛在的風險。

在金融行業裡邊所談到的輿情監測，可能並不一定是簡單的判斷。它更多的是希望能夠找到一種複雜的關係，可以對未來可能發生的事情作出一些預警，或者是預判。那麼證監會的輿情監測，它的豐富程度遠遠超出我們過去所設想的在某些文本上做一些簡單的情感計算就能夠得到的。它背後存在大量的知識，而這些知識最好的表達方式肯定就是用知識圖譜的方式。

“在逐漸進入智慧時代的時候，在大資料的支撐下，社會化大資料試驗使我們有了一套全新的評估方式。”

人工智慧的人才缺口動輒500萬，但是這裡到底是缺少高端的資料科學家，還是缺少碼農？經過一些走訪我們瞭解到，人工智慧的人才缺口是那些能夠在傳統職業取向上更新自己的技能的人才。比如過去我們要求完全掌握Office就可以做文員，現在還應該會用Excel做一些簡單的資料分析，生成視覺化報告，能夠知道公司裡面哪些資料是可以收集的，哪些資料可能對於公司的運營和決策是有價值的，這樣我們就對辦公室文秘這樣的崗位進行了智慧時代的資料認知升級。這種智慧升級不是通過傳統的教育方式能夠培養出來的，而是需要借助職業教育或高校的大資料專業推進，這也是人才的大資料基礎設施建設。

在如今這個智慧時代，我們通過建立知識圖譜資料庫，構建雙生子系統，模擬可能出現的一些回饋，並通過調整參數，任意放入很多虛擬的人格和環境當中可能遇到的種種變數。這個時候我們就有了一套新的評估方式，這個評估方式就是在沒有引發實際的社會反應之前，我們就可以去評估任何一個事件，它一旦放到大資料的社會化當中去的時候，有可能會產生一些什麼樣的反應，這就是社會化大資料試驗在逐漸進入智慧時代的時候，在大資料的支撐下，它能夠起到的一個作用。

在遊戲《魔獸世界》裡面曾經發生過一個比較著名的實驗。2005年，《魔獸世界》哈卡之血帶來了瘟疫，這個瘟疫是玩家利用一些BUG，把這個瘟疫帶回主城，就有大量的玩家上線就死，沒法繼續遊戲。發生“墮落之血”事件後，許多媒體以及流行病學家呼籲，此類的網路瘟疫傳播事件，有助於研究病毒傳播的模型，以及人們如何對抗環境中的疾病等現象。包括美國Tufts大學、以色列的Ben-Gurion大學皆表示，電子角色扮演遊戲可提供高階的研究平臺、虛擬環境，讓科學家進行相似的疾病傳染研究。

這個事件之後，大家逐漸認識到了像大資料社會試驗的另一種方式的可能性，我們可以很好地獲取虛擬世界當中的資料映射到現實社會當中來，對現實社會中可能出現的一些不好的影響來作出一些預判，甚至作出一些調控。如果它的準確率能夠達到80%，那麼它就具有比較好的效率，同時它基本上沒有負面的影響。

關於性格匹配也是一個比較有趣的研究課題。所謂的酒逢知己千杯少，國外的很多心理學家針對這個假設也做了一些實驗室級別的研究，說明確實存在著這樣一種類似於“相生相剋”的關係。但是這種實驗室研究一般樣本很少，如果能夠把這種性格匹配放到大資料的社會化實驗當中去，就會獲得更有力的證明。當時貝塔斯曼有一個全球最大的國際呼叫中心，他們主要服務寶馬、賓士等一些大的汽車服務商。

當時我們把性格收集的語音分析軟體放到呼叫中心的生產線上去做一些基本的資料收集，並做一些初級匹配，然後再根據我們匹配的結果進行反復地反覆運算，最後找到這樣一種性格匹配的最佳模式。雖然實驗的過程中涉及隱私問題無疾而終，但性格確實和喜好有著比較密切的關係，根據這些語音來做一些性格方面的預測，提供所謂個性化的服務，這樣的資料應用價值是非常巨大的。

社會化大資料試驗包括在實驗室裡面會有一些假設，也會有一些初步的測試資料，能夠構建一個非常簡陋的模型，然後我們能夠把這個模型植入到生產系統，或者是雙生子系統當中，去反復地學習反覆運算模擬，直到它達到一個比較好的效果之後，然後就把它真正地應用到我們希望應用的場合。

我想我們要定義這種社會化大資料試驗，是希望不管是通過真正的生產系統去做了脫敏（指對某些敏感資訊通過脫敏規則進行資料的變形，實現敏感隱私資料的可靠保護）之後，還是我們在一個非生產、但是高度模擬的雙生子系統當中，去把資料接入過來，來進行這種高強度的類比，這兩種方式希望達到的都是我們對於某一種科學假設的驗證，或者說能夠達到一些對我們整個科技發展都有價值的試錯。所以，當科技發展到今天，我們很多的決策就不再應該是拍腦袋的決策，而是應該去追求比較高的成功概率，如此一來，社會化大規模試驗在未來的學術研究和生產實踐緊密結合當中會有著越來越重要的地位。

很多的傳統行業並沒有認識到自己的行業資料裡面到底有什麼價值，有什麼意義，這是資料認知的短板。

業務和背後的技術之間常常有一些衝突，技術並不能夠瞭解業務，業務也並不能夠瞭解技術，這就是一個場景問題。很多時候我們的期望值是遠遠高於我們的技術發展，但是無論怎樣，能夠在傳統行業的資料採擷、資料收集及資料清洗到資料應用裡面達成某一些資料認知，形成一定的共識，那麼幾乎所有技術都可以在某些地方對傳統行業作出一些改變。

下面這些案例就有很多應用場景可以啟發我們的想像力，正面的場景可以開啟我們的想像力，負面的場景植入則會誤導我們的想像力。

案例是穀歌試圖在智慧城市做一些場景化的構建，在競標書中，Sidewalk Labs（Google母公司Alphabet的子公司）提出了各種科技設想，例如不會增加空氣中二氧化碳總量的熱能電網、能分揀回收廢物的感測器、由商用房改建的組合式住房、能跟蹤雜訊和污染情況的監控器、無人駕駛班車、共用計程車機器人、智慧交通信號燈、送貨機器人，以及能自動融化積雪的自行車道和人行道等。

案例是2017年7月，阿裡旗下B2C電商平臺天貓官微通過一段視頻向世人展示了一種不一樣的汽車新零售模式“無車售車”——天貓汽車自動販賣機，沒有傳統4S店內的售前、售後、收銀等配套服務人員，消費者全程僅通過對天貓手機用戶端進行一系列操作，便可完成一輛新車從選購、預付款、分期付款業務辦理等所有環節。

案例是蘋果教育的應用，這些並不是那麼常見，但是它確實能夠做到即便你沒有需求，我也為你創造需求，這個就是約伯斯精英主義的驗證。如果說在沒有需求、強行創造需求的場景下，這種場景一定要滿足大家的好奇心，要好玩，能夠滿足大家的想像力。

還有兩個場景應用的成功案例，一個是電子紙，一個是穀歌眼鏡。首先，談一下通過場景轉換獲得新市場的電子紙。電子紙從實驗室到落地使用雖然有20年的歷史，但依然處於新生階段，但是在物聯網驅動的智慧城市裡面，電子紙技術變成了絕佳解決方案。例如kindle電子書運用了電子墨水技術，新零售實體店的電子標籤，公交站牌的電子紙顯示器等，這是需求驅動的自然而然的場景轉換，它本來是to c，現在變成一些to b應用，廣告業的需求引導了技術的方向。

第二個是場景轉換讓產品起死回生的穀歌眼鏡。剛推出來的時候就是希望大家戴著它非常酷，同時還推了一款遊戲，有點類似於後面非常火的皮卡丘抓小精靈的遊戲，叫做搶奪資源點。在實景當中戴著穀歌眼鏡，你就可以去爭奪城市的資源點，但是在這個to c的場景下失敗了，後來轉向了to b，為波音公司提供AI服務，場景轉換立刻讓它成為了一個在精密操作現場的非常重要的輔助工具，戴著穀歌眼鏡使工作效率提升了百分之四五十，做檢修的時候有一種解放雙手的感覺。其實場景並不是我們大腦當中非常理性的東西，更多的時候代表著我們人類的一種想像力。

場景的價值：

耗費大量資源研發的新技術，需迅速佔領市場，找到需求方，或創造需求；

高科技公司通過場景，佔領大眾認知，（改為其他？）公司跟進，以此作為競爭策略；

高科技產品的市場較為單一，拓展新背景下的新市場；

高科技產品的研發過程為技術導向，社會文化背景、消費者心理認知等超出開發預期，需不斷試錯，方能找到真實需求。

圖為2015年“全球百大思想者”、美國斯坦福大學電腦科學系副教授李飛飛提出來的場景識別的概念，更多的是物體、屬性、關係就可以構成場景圖。

衛哲跟李飛飛交流過，說大概90%的人工智慧是偽人工智慧。他認為偽人工智慧就是指沒有資料或者是演算法反覆運算得不夠快的人工智慧。他這個說法其實就是只剩下來所謂的10%，甚至1%的人工智慧是真的人工智慧。對他來說，他認為這個就是一種場景化。

還有穀歌在做的AVA資料集，英特爾最近在人工智慧方向投資的這些案例都可以後臺回復關鍵字“1107”，下載完整版PPT進行瞭解。

事實上場景映射到影像，或者映射到意象，這個過程依賴的不是一個理性過程，而是充分依賴於我們的想像力。

我們做語音辨識或者是圖像識別的時候，在我們語言學的語境當中都叫做語碼轉化，只不過是跨符號平臺的語碼轉化。因為用傳統的分析方法，詞、短語、句子、篇章，這個是我們用結構主義語言學給語言或大或小的單位給出的定義。一般來講，詞對應的是一個概念，句子對應的是一個命題，概念和命題當然是邏輯學裡面的一些基本要素。現在隨著語言學和腦科學的發展，可以認為詞這個單位在大腦裡面是以資料的方式來儲存。

人工智慧包括資料、演算法和計算，對應到語言裡面，我們可以認為資料是詞，從詞到句子這個過程肯定是通過句法這種演算法來實現，完成計算的結果就是生成一個句子。在這個比喻過程中，我們會發現傳統結構語言學的短語並不出現在語言表層，現在用基於統計的一套自然語言處理的方式，也完全可以不去處理短語這個層級。而短語在邏輯裡面對應的到底是什麼？篇章在邏輯裡面又對應的是什麼？或者說篇章在計算領域裡面對應的又是什麼？我們可以作出這樣一種假設。

如果我們把一個短語，即一個非句子的片段，理解為在我們大腦裡面起起伏伏的場景，那麼篇章就可以理解為這些場景所構建出來的一個連續的影像，或者稱之為動畫。當腦子裡面浮想聯翩的時候，確實存在大量碎片化的意象，各種各樣的場景在我們腦子裡面飄來飄去，充滿著不確定性。一旦我們希望把它組織成為一個有條理的句子，並且把它講述出來的時候，就會依賴於句法理性。

針對語言存在兩種不同的天賦，一種天賦可能就是理性的語言表達的天賦，這種天賦按喬姆斯基的說法來看是每一個人都有的，就是UG普遍語法（自20世紀50年代喬姆斯基發表《句法結構》一書以來，他所引領的轉換生成語言學在語言學界掀起了軒然大波，而作為該語言學派之靈魂和核心的普遍語法理論更是受到了廣泛的關注），另外一種天賦就是我們的創造天賦，有的人會寫出大量的錯別字，文不通，字不順，但是他寫的文章卻會非常地有吸引力。這種時候我們認為在他的大腦裡，他能夠把他的經驗場景化，並且能夠把場景很好地連綴起來。

如果這種連綴的過程對應到電腦領域，我們需要的並不是嚴格的句法分析和邏輯推理，而是另外一種演算法，這種演算法我們把它命名為語義篩，用一個經驗領域的知識圖譜來充當語義篩子，讓大量的場景從這個篩子過一遍，可以取兩個結果，要麼把留在篩子裡面的作為有價值的內容，要麼把從篩子裡篩出去的東西作為有價值的內容，這塊作為一個假設，我們正在試圖去實現。

驗證流程大致如下，針對場景這樣一個物件，首先找到一個可能可行的、模糊的、粗糙的語義模型，然後用社會化大規模試驗的方式，把這個模型推到某一個大規模的資料環境當中去，讓它反復地跑完之後來驗證是不是在語言當中存在著兩種不同的層級，一個層級是基於理性的層級，純粹接受邏輯，接受語法規則支配的這樣一些運算式。而另外一個層級就是來自於我們的想像，來自於我們的體驗，來自於我們對於這個現實世界經驗的拼湊，來自於我們每個人對於世界的不同切分，來自于非常豐富的複雜主題。

當我們在實際的環境當中去收集、整理資料之後，如何讓這些資料拼湊成為場景，讓它們能夠為我們進行一些愉悅身心的創作，這個問題可能是我們需要嘗試解決的問題。現在人工智慧比較關心的場景識別，並不能激發出創造的天賦，對創造和想像力本身的類比，才是場景資料化的發展方向。

微信公眾號後臺回復關鍵字“1107”，下載完整版PPT。

創造一系列高效率、高可用性和智慧化的資料產業雲網一體支撐性平臺。