您的位置:首頁>科技>正文

穀歌語義理解框架SyntaxNet升級 開啟無數可能性

在 AI 語義理解領域, 穀歌一直不遺餘力地進行研發投入。

對於普通用戶而言, 2015 年發佈的基於深度神經網路的谷歌智慧郵件回復,

2016 年上線的神經機器翻譯系統(GNMT), 便源自于穀歌在該領域的研究成果。 在消費級產品之外, 穀歌還持續為 AI 開發者提供技術支援, 不斷推出新的開源工具。

去年夏天, 針對語句的語法結構分析, 穀歌開源了 SyntaxNet 神經網路框架, 以及與之搭配英語分析預訓練模型 Parsey McParseface。 緊隨其後, 穀歌發佈了針對其他 40 門語言的語法分析模型。 並將它們命名為 Parsey's Cousins(即 “Parsey 的表兄妹們”)。 對英語國家開發者而言, 為英語之外的語言開發機器學習系統是一件相當不容易的事。 現在, 經過將近一年的努力, 穀歌推出了 SyntaxNet 框架以及 Parsey 相關模型的升級版。

SyntaxNet 升級

就雷鋒網所知, 這是 SyntaxNet 自誕生以來的最重大升級。 這建立在穀歌對各語言的語義理解研究基礎之上。 此次升級的核心是一項新技術:能對輸入語句的多層表示進行很好的學習。

具體來講, 它延伸了 TensorFlow, 能對多層語言結構進行合成建模, 還能夠在語句或檔處理過程中, 動態地生成神經網路架構。

舉個例子, 該升級使創建基於字母的模型(能學習把單獨字母組合成詞語), 變得更加簡單。 該模型還能夠學習到, 不同詞語在共同組成部分(共用的字母)方面存在聯繫。 在另一方面, Parsey 和 Parsey’s Cousins 通過詞語排序而運行。 因此它們必須要對訓練中的詞語進行記憶, 並依賴語境來決定“生詞”(此前未記憶過的詞語)的語法函數。

ParseySaurus

為了展示新版本 SyntaxNet 的強大之處, 穀歌同時發佈了新的預訓練過的模型 ParseySaurus。 ParseySaurus 模型, 使用了上文提到的基於字母的輸入表示。 因此, 它極大提升了預測新詞語含義的能力。

這是基於兩個方面來實現:詞彙的拼寫和在語境中的使用方式。 雷鋒網瞭解到, ParseySaurus 的準確率遠遠超出 Parsey’s Cousins, 錯誤率降低了 25%。 由於語言的形態特性和其他屬性, 新模型在俄語、土耳其語、匈牙利語上的效果尤其好——這些語言中, 同一個詞彙有多種不同形態, 其中許多形態從未在訓練階段出現過(即便是大型語料庫)。

競賽

你或許會對“基於字母的模型是不是語義識別的最佳選擇”感到好奇。 或者, 是否有其他更好的技術。 穀歌表示, 新版本的穀歌 SyntaxNet 提供了許多全新可能性, 比如 beam search 和不同的訓練目標;但新 SyntaxNet 的能力不止於此。 雷鋒網消息, 穀歌與布拉格大學(Charles University)合作, 將在今年的 CoNLL 大會上舉辦多語言分解競賽(multilingual parsing competition)。 競賽目標是為 45 種語言,

開發出在現實環境下有良好表現的語義分解系統。

via google

Next Article
喜欢就按个赞吧!!!
点击关闭提示