您的位置:首頁>科技>正文

穀歌AI上線“與書籍對話”專案,從10w+本書中搜索你要的答案

大資料文摘作品

編譯:魏子敏、蔣寶尚

在使用日常語言與電腦交談時, 電腦如何理解我們?

谷歌的方法是利用數十億條對話來直接告訴人工智慧,

真正的人類對話是什麼樣的。

而書籍, 可能是人類完整語句最大的彙聚地。

穀歌AI的Talk to Books專案昨日上線, 旨在通過搜索挖掘這片人類完整語句的寶藏。

網站連結:

https://research.google.com/semanticexperiences/about.html

在Talk to Books中, 當你輸入一個問題或一個陳述時, 穀歌的模型會查看超過10萬本書籍中的每個句子, 以查找最有可能在對話中出現的答案。 回應句子會以粗體顯示, 並附帶一些關於上下文的句子旁邊的文字。

讓我們看一個穀歌給出的案例:

文摘菌當然也自己做了一下嘗試, 輸入:AI會比人類更聰明嗎?穀歌給出了以下的答案, 出現在第一位的答案來自Kevin Gurney的《神經網路入門》, 相關度非常之高, 而排在第二位第三位的分別是偏生物科學和語言學的兩本書, 點擊可以直接進入穀歌圖書,

定位到相關語句。

在穀歌官方發佈的介紹文章中, 其表示雖然這一應用有一個搜索框, 但它的目標和底層技術與傳統的搜索體驗完全不同。 這只是一個研究演示, 它使人工智慧能夠找到用戶輸入可能有反應的語句, 而不是一個涉及標準品質信號的廣泛精細工具。

您可能需要充分使用才能更好地發掘其價值。 而穀歌也表示, 在這個實驗中, 其實沒有考慮這本書是權威的還是只是論題。 該模型只是查看每個句子與查詢配對的情況。 有時它會發現錯過標記的回答或完全脫離情境。

此外, 穀歌強調, 直接問出完整的句子會比輸入關鍵字或者短語獲得更好地結果, 而這一點與傳統的搜尋引擎有根本不同。

對於開發人員來說, 谷歌也提供了更詳細的技術細節來供探索。

專門的開發者頁面:

https://research.google.com/semanticexperiences/for-developers.html

開發人員可以深入瞭解技術並將其用於自己的應用程式。

穀歌稱:“我們很高興與社區分享這些模型, 以瞭解可以與他們一起構建的其他模型。

我們知道我們展示的僅僅是一個開始......”

以下是谷歌給技術人員寫出的技術細節, 大資料文摘編譯如下:

訓練模型

我們上面分享的模型主要是通過對自然語言輸入以及回饋進行訓練。 訓練過程中使用了各種半監督資料來源, 在這種情況下, 半監督通常是一個語句和一個實際後續語句的實際共存。

這些模型使用英語語言樣本對資料進行了訓練, 但是其他語言也可以使用相同的方法。

最簡單的例子是使用多句文本(例如報紙文章)中的下一個句子。 從Q/A資料集中輸入:“今晚你為什麼不去吃晚餐?”其配對答覆是:“對不起, 我不能去。 ”資料集中的真對是作為正面例子給出的。 隨機配對的輸入/回復提供了反面的例子:“為什麼你今晚不來吃飯呢?”其配對答覆是“大都會隊贏了三場比賽”。

另外, 半監督只是一種基於事實的方法, 即句子或短語在一段訓練資料中同時發生。 使用各種資料來源(問答資料庫、報紙文章中的下一個句子對), 模型可以在多個維度(句法一致性、一般語義相似性或一致性、主題一致性甚至某些知識一致性)上學習短語或句子的適當配對。

通過學習區分正確短語對, 系統學會了用500維實數向量來表示自然語言語法、語義。 輸入長度是可變, 但是有效性隨著輸入長度的增長而下降。 這些向量可用於語義相似任務、Q/A任務、自然語言建議任務等。

使用模型

TensorFlow最近發佈了TFHub, TF-Hub是一個可以共用機器學習專業知識的平臺, 裡面包含在可重用資源中打包的機器學習專業知識, 特別是在預先訓練的模組中的技能。

在這個平臺上,可以找到和下載類似于這些應用程式的模型。這裡提供了幾個教程,包括語義相似和文本分類。

Universal Sentence Encoder模型與我們在Talk to Books和Semantris中使用的非常相似,儘管這些應用程式正在使用雙編碼器方法,以最大限度地提高回應相關性,而Universal Sentence Encoder是一種單一的編碼器。

關於語言理解模型中的偏誤

語言理解模型使用數以十億計的例子來瞭解這個世界。語言理解模型的進步可以推動這個社會的社交應用的發展。也可以反映人類的認知偏見。因此仔細的設計對於使用這些模型至關重要。

在Semantris中,我們展示的單字清單是手工整理的。在可能的範圍內,我們排除了我們認為不適合的主題,從而可以輕鬆地將它們作為輸入進行補充。在“Talk to Books”中,雖然我們不能手動審核10萬冊書籍中的每個句子,但我們使用的是一種流行度衡量標準,可以增加專業出版社出版的圖書的比例。

當然,還有其他措施可以採取。例如,敏感話題分類器可以確定何時輸入或輸出的素材是不合理的。我們建議在使用這些模型構建最終使用者應用程式時,採取減少偏見的措施。

對於這裡展示的AI實驗項目,我們沒有採取減輕偏見的措施。實驗過程表明了AI的全部能力和弱點。在過程中可能會發現冒犯性關聯。鼓勵您使用回饋工具報告冒犯性關聯,以便改進未來的模型。

我們還沒有(也可能永遠不會)有一個完整的解決方案來識別和減輕不需要的關聯。正如Caliskan等人在他們最近的論文《自動從語言語料中匯出的語義包含類似於人類的偏見》中指出,這些關聯深深地纏繞在自然語言資料中。

特別是在預先訓練的模組中的技能。

在這個平臺上,可以找到和下載類似于這些應用程式的模型。這裡提供了幾個教程,包括語義相似和文本分類。

Universal Sentence Encoder模型與我們在Talk to Books和Semantris中使用的非常相似,儘管這些應用程式正在使用雙編碼器方法,以最大限度地提高回應相關性,而Universal Sentence Encoder是一種單一的編碼器。

關於語言理解模型中的偏誤

語言理解模型使用數以十億計的例子來瞭解這個世界。語言理解模型的進步可以推動這個社會的社交應用的發展。也可以反映人類的認知偏見。因此仔細的設計對於使用這些模型至關重要。

在Semantris中,我們展示的單字清單是手工整理的。在可能的範圍內,我們排除了我們認為不適合的主題,從而可以輕鬆地將它們作為輸入進行補充。在“Talk to Books”中,雖然我們不能手動審核10萬冊書籍中的每個句子,但我們使用的是一種流行度衡量標準,可以增加專業出版社出版的圖書的比例。

當然,還有其他措施可以採取。例如,敏感話題分類器可以確定何時輸入或輸出的素材是不合理的。我們建議在使用這些模型構建最終使用者應用程式時,採取減少偏見的措施。

對於這裡展示的AI實驗項目,我們沒有採取減輕偏見的措施。實驗過程表明了AI的全部能力和弱點。在過程中可能會發現冒犯性關聯。鼓勵您使用回饋工具報告冒犯性關聯,以便改進未來的模型。

我們還沒有(也可能永遠不會)有一個完整的解決方案來識別和減輕不需要的關聯。正如Caliskan等人在他們最近的論文《自動從語言語料中匯出的語義包含類似於人類的偏見》中指出,這些關聯深深地纏繞在自然語言資料中。

Next Article
喜欢就按个赞吧!!!
点击关闭提示