穀歌AI上線“與書籍對話”專案，從10w+本書中搜索你要的答案

大資料文摘作品

編譯：魏子敏、蔣寶尚

在使用日常語言與電腦交談時，電腦如何理解我們？

谷歌的方法是利用數十億條對話來直接告訴人工智慧，

真正的人類對話是什麼樣的。

而書籍，可能是人類完整語句最大的彙聚地。

穀歌AI的Talk to Books專案昨日上線，旨在通過搜索挖掘這片人類完整語句的寶藏。

網站連結：

https://research.google.com/semanticexperiences/about.html

在Talk to Books中，當你輸入一個問題或一個陳述時，穀歌的模型會查看超過10萬本書籍中的每個句子，以查找最有可能在對話中出現的答案。回應句子會以粗體顯示，並附帶一些關於上下文的句子旁邊的文字。

讓我們看一個穀歌給出的案例：

文摘菌當然也自己做了一下嘗試，輸入：AI會比人類更聰明嗎？穀歌給出了以下的答案，出現在第一位的答案來自Kevin Gurney的《神經網路入門》，相關度非常之高，而排在第二位第三位的分別是偏生物科學和語言學的兩本書，點擊可以直接進入穀歌圖書，

定位到相關語句。

在穀歌官方發佈的介紹文章中，其表示雖然這一應用有一個搜索框，但它的目標和底層技術與傳統的搜索體驗完全不同。這只是一個研究演示，它使人工智慧能夠找到用戶輸入可能有反應的語句，而不是一個涉及標準品質信號的廣泛精細工具。

您可能需要充分使用才能更好地發掘其價值。而穀歌也表示，在這個實驗中，其實沒有考慮這本書是權威的還是只是論題。該模型只是查看每個句子與查詢配對的情況。有時它會發現錯過標記的回答或完全脫離情境。

此外，穀歌強調，直接問出完整的句子會比輸入關鍵字或者短語獲得更好地結果，而這一點與傳統的搜尋引擎有根本不同。

對於開發人員來說，谷歌也提供了更詳細的技術細節來供探索。

專門的開發者頁面：

https://research.google.com/semanticexperiences/for-developers.html

開發人員可以深入瞭解技術並將其用於自己的應用程式。

穀歌稱：“我們很高興與社區分享這些模型，以瞭解可以與他們一起構建的其他模型。

我們知道我們展示的僅僅是一個開始......”

以下是谷歌給技術人員寫出的技術細節，大資料文摘編譯如下：

訓練模型

我們上面分享的模型主要是通過對自然語言輸入以及回饋進行訓練。訓練過程中使用了各種半監督資料來源，在這種情況下，半監督通常是一個語句和一個實際後續語句的實際共存。

這些模型使用英語語言樣本對資料進行了訓練，但是其他語言也可以使用相同的方法。

最簡單的例子是使用多句文本(例如報紙文章)中的下一個句子。從Q/A資料集中輸入：“今晚你為什麼不去吃晚餐？”其配對答覆是：“對不起，我不能去。 ”資料集中的真對是作為正面例子給出的。隨機配對的輸入/回復提供了反面的例子：“為什麼你今晚不來吃飯呢？”其配對答覆是“大都會隊贏了三場比賽”。

另外，半監督只是一種基於事實的方法，即句子或短語在一段訓練資料中同時發生。使用各種資料來源(問答資料庫、報紙文章中的下一個句子對)，模型可以在多個維度(句法一致性、一般語義相似性或一致性、主題一致性甚至某些知識一致性)上學習短語或句子的適當配對。

通過學習區分正確短語對，系統學會了用500維實數向量來表示自然語言語法、語義。輸入長度是可變，但是有效性隨著輸入長度的增長而下降。這些向量可用於語義相似任務、Q/A任務、自然語言建議任務等。

使用模型

TensorFlow最近發佈了TFHub， TF-Hub是一個可以共用機器學習專業知識的平臺，裡面包含在可重用資源中打包的機器學習專業知識，特別是在預先訓練的模組中的技能。

在這個平臺上，可以找到和下載類似于這些應用程式的模型。這裡提供了幾個教程，包括語義相似和文本分類。

Universal Sentence Encoder模型與我們在Talk to Books和Semantris中使用的非常相似，儘管這些應用程式正在使用雙編碼器方法，以最大限度地提高回應相關性，而Universal Sentence Encoder是一種單一的編碼器。

關於語言理解模型中的偏誤

語言理解模型使用數以十億計的例子來瞭解這個世界。語言理解模型的進步可以推動這個社會的社交應用的發展。也可以反映人類的認知偏見。因此仔細的設計對於使用這些模型至關重要。

在Semantris中，我們展示的單字清單是手工整理的。在可能的範圍內，我們排除了我們認為不適合的主題，從而可以輕鬆地將它們作為輸入進行補充。在“Talk to Books”中，雖然我們不能手動審核10萬冊書籍中的每個句子，但我們使用的是一種流行度衡量標準，可以增加專業出版社出版的圖書的比例。

當然，還有其他措施可以採取。例如，敏感話題分類器可以確定何時輸入或輸出的素材是不合理的。我們建議在使用這些模型構建最終使用者應用程式時，採取減少偏見的措施。

對於這裡展示的AI實驗項目，我們沒有採取減輕偏見的措施。實驗過程表明了AI的全部能力和弱點。在過程中可能會發現冒犯性關聯。鼓勵您使用回饋工具報告冒犯性關聯，以便改進未來的模型。

我們還沒有（也可能永遠不會）有一個完整的解決方案來識別和減輕不需要的關聯。正如Caliskan等人在他們最近的論文《自動從語言語料中匯出的語義包含類似於人類的偏見》中指出，這些關聯深深地纏繞在自然語言資料中。

特別是在預先訓練的模組中的技能。

在這個平臺上，可以找到和下載類似于這些應用程式的模型。這裡提供了幾個教程，包括語義相似和文本分類。

關於語言理解模型中的偏誤