搜狗CEO王小川：人工智慧發展分三個階段，目前實際應用仍存局限

王小川認為，在去年AlphaGo之後，人工智慧開始正式進入風口期。人工智慧分為三個應用層次，即：1.將傳統規則教給機器；2.將答案教給機器記憶學習；3.將目標給機器自我學習。目前我們的人工智慧正處在第二階段的高級階段。

另外他指出，現在的人工智慧還是有很多的局限性，例如機器需要在學習和判斷時有一個前提條件（或訓練場景）。對To C而言，圖像和語音的深度學習非常重要。語音辨識並非人工智慧的核心，但是人工智慧的未來發展基礎。

需要特別注意的是，王小川直言，讓人工智慧進行判斷和決策，

這其中蘊含著巨大的商業價值。

人工智慧是往三個階段走。我們還處在第二階段的高級階段。

人工智慧這個話題不是新課題，在上個世紀60年代、80年代就在做人工智慧。那時候做人工智慧的教授其實很不幸，因為當時的人工智慧水準是遠遠不夠的。

當時人們把對自己世界的認知變成了規則，轉成了機器人，就是把這個規則告訴機器。這是那個時代的工作。那是60年代到80年代，人們對規則的表達是偏離這個目標的。

80年代之後，基於統計方法來做的人工智慧，不是嘗試把人對於世界的認知告訴機器，而是讓機器學，讓你看答案是什麼。一方面是把原始的問題，看到問題之後把答案給他，這是走上了讓機器人學習的道路，

這搞了幾年。

這個答案很清楚，很經典案例就是人臉識別。怎麼描述呢？胖一點的、瘦一點的等等。我知道這個人是誰，但是沒有辦法描述。

到2000年之後的突破點，我們發現用更粗暴的方法，我們不要嘗試在這個問題上找特徵，把特徵告訴機器，把原始的問題原始的資料交給機器。我給他兩千多張照片，讓他自己去找特徵，最後得出答案。

2000年之後的爆發是跟這個相關的，阿爾法狗就是這麼出來的，他不是靠原來的方法做的。

今天部分人工智慧開始走到第三個階段了。 AlphaGo屬於是第二階段加上一點點第三階段，給它一些答案，給它每一個局面下，人是怎麼走的，讓機器學。這樣可以發現機器很難追上頂尖的人。到最後我告訴機器說，

你走對，你贏了，或者是輸了。

目前我們主要在第二個階段，這個階段一定要用到大資料。好處是我們不需要工程師對原有的行業有特別深度的理解，我舉個例子，醫生他是懂得怎麼看心臟病的心電圖，但是他很難把這個規則明晰的描述給工程師。

從去年開始，工程師得到很重要的體驗，我不需要醫生去學習他細節的技術經驗，只要醫生告訴我這個代表什麼。工程師資料量大，就可以建立這樣的模型，這跟選擇人工智慧的行業之間有天然的溝通鴻溝就消失掉了。這個很快就可以在人工智慧裡面得到突破的應用。未來的兩三年裡已經有成功工作經驗得到了巨大的升級，今年在智慧領域裡面有一個很大的發現。

現在的人工智慧還是有很多的局限性。核心問題是有一個前提的條件。例如在一個有背景音樂的環境裡，兩三個人同時說話，人很清楚可以辨別出什麼聲音是人說的，但機器做不到。因為人工智慧是對見過聲音的處理，如果兩個人一起說話就不行了。

例如要很安靜的環境裡，如果這個環境裡還有背景音樂，同時兩三個人一塊說話，人是很清楚能分辨出來的，但是機器做不到，這個對機器而言，如果是聲音裡混了聲音，人工智慧是對見過聲音的處理，如果兩個人一起說話就不行了。

如何處理呢？一種做法是用麥克風做。比如我們在汽車裡面，汽車裡有胎噪和風噪，把這個錄下來，然後在混到這個訓練裡面去，

不是在識別裡面做，而是它見過這樣的聲音。還有就是去噪音。

另外比較難的是自然語言的處理。別看機器翻譯現在有很大的發展，能把中文翻譯成英文，英文翻譯成中文，這個能翻譯的很流暢。因為現在的機器人學習，不是基於理論方法。人如果流暢，機器也就可以流暢。

比如我去年6月份去了一個劍橋頂尖語言的實驗室，他們在演示一個人機對話的系統，演示的非常清楚，我想吃辣的，我想吃什麼樣的，機器就幫你找。當我找到餐館的時候機器問我，你需要停車位元嗎？我說我沒有車，它就不會回復了。因為它不知道車和停車位是什麼關係。所以自然語言處理這塊還是非常不夠的。

如果從產品上分類，我把人工智慧分成這麼三類：識別、判斷決策和創造生成。今天做的第一個事情就是把物理世界的東西建模，比如語音辨識、圖像識別等，都叫識別。這是一類。還有是創造生成，比如語音的合成和圖像合成，這就是第一類和第三類的結合，比如應用在安防領域。

我個人認為，第二類，也就是讓機器做判斷和決策，這其中蘊含著巨大的商業價值。因為它把人的勞動取代，讓機器產生更高級的工作。判斷和決策其實是商業的核心部分。

前面講了一個人工智慧的判斷，我給大家分享一點搜狗在這個裡面的思考。

首先人工智慧現在的基本做法是要學習。其實對於搜尋引擎公司，不管是百度還是搜狗，大部分還是在學習。

現在有了深度學習以後，我們可以想像的更多，比如在網頁搜索裡面，靠我們的工程師怎麼是高品質的讓這個機器去學，或者是圖像識別這個裡面如何更好的發現人臉，發現這個特徵。深度學習之後需要更大的資料量才能做提升。

第二，對於To C而言，很重要的是圖像和語音，應該叫做深度學習，讓我們有了很大的進步。我想表達的是，搜狗從2011年開始做，80%有語音的收入，每天會產生20萬條的語音資料。我們對了一下，比其他家做的語音辨識的識別價值還要大，這個有清晰的應用場景。

TO B和TO C的公司是有區別，這個要有資料場景。如果沒有場景，就要依靠其他家的資料場景，這是一種合作的方式。我們是用這樣的技術首先為自己服務，因為我們有足夠大的資料場景做支撐。

語言變語音這個事情我們也在做，但是我們考慮的是以個人為核心做周邊的發展。包括兩個語音的轉化翻譯，最後是語音的理解。這是我們To C公司裡面思考的，叫自然交互和知識計算，自然交互是以語音為中心，還有是怎麼建立對語音的分析和理解。

行業中會有共識，未來很重要的事情，語音在於是對話、翻譯、問答，這幾個都是最前沿的工作。我們為什麼考慮呢？今天是詞的搜索，未來是給機器提問題，讓他有一個精准的答案。我們在這個工作裡面也做了很多的積累，我們認為在1年以內會有突破，不代表是機器理解了，而是在很多問題裡面可以直接的回答。以前是靠拼音，敲漢字進去，未來我們是希望別人問，這時機器就可以幫助人們直接回答。

本文來自獵雲網，如若轉載，請注明出處：http://www.lieyunwang.com/archives/289983

今天做的第一個事情就是把物理世界的東西建模，比如語音辨識、圖像識別等，都叫識別。這是一類。還有是創造生成，比如語音的合成和圖像合成，這就是第一類和第三類的結合，比如應用在安防領域。

前面講了一個人工智慧的判斷，我給大家分享一點搜狗在這個裡面的思考。

首先人工智慧現在的基本做法是要學習。其實對於搜尋引擎公司，不管是百度還是搜狗，大部分還是在學習。

本文來自獵雲網，如若轉載，請注明出處：http://www.lieyunwang.com/archives/289983