在 AI 語義理解領域, 穀歌一直不遺餘力地進行研發投入。
對於普通用戶而言, 2015 年發佈的基於深度神經網路的谷歌智慧郵件回復,
去年夏天, 針對語句的語法結構分析, 穀歌開源了 SyntaxNet 神經網路框架, 以及與之搭配英語分析預訓練模型 Parsey McParseface。 緊隨其後, 穀歌發佈了針對其他 40 門語言的語法分析模型。 並將它們命名為 Parsey's Cousins(即 “Parsey 的表兄妹們”)。 對英語國家開發者而言, 為英語之外的語言開發機器學習系統是一件相當不容易的事。 現在, 經過將近一年的努力, 穀歌推出了 SyntaxNet 框架以及 Parsey 相關模型的升級版。
SyntaxNet 升級
就雷鋒網所知, 這是 SyntaxNet 自誕生以來的最重大升級。 這建立在穀歌對各語言的語義理解研究基礎之上。 此次升級的核心是一項新技術:能對輸入語句的多層表示進行很好的學習。
舉個例子, 該升級使創建基於字母的模型(能學習把單獨字母組合成詞語), 變得更加簡單。 該模型還能夠學習到, 不同詞語在共同組成部分(共用的字母)方面存在聯繫。 在另一方面, Parsey 和 Parsey’s Cousins 通過詞語排序而運行。 因此它們必須要對訓練中的詞語進行記憶, 並依賴語境來決定“生詞”(此前未記憶過的詞語)的語法函數。
ParseySaurus
為了展示新版本 SyntaxNet 的強大之處, 穀歌同時發佈了新的預訓練過的模型 ParseySaurus。 ParseySaurus 模型, 使用了上文提到的基於字母的輸入表示。 因此, 它極大提升了預測新詞語含義的能力。
競賽
你或許會對“基於字母的模型是不是語義識別的最佳選擇”感到好奇。 或者, 是否有其他更好的技術。 穀歌表示, 新版本的穀歌 SyntaxNet 提供了許多全新可能性, 比如 beam search 和不同的訓練目標;但新 SyntaxNet 的能力不止於此。 雷鋒網消息, 穀歌與布拉格大學(Charles University)合作, 將在今年的 CoNLL 大會上舉辦多語言分解競賽(multilingual parsing competition)。 競賽目標是為 45 種語言,
via google