選自research.google
作者: David Weiss等
機器之心編譯
參與:李澤南、晏奇
此項升級進一步擴展了 TensorFlow的功能,
使這一框架可以進行多層次語言結構的聯合建模,
而且,
它也讓 TensorFlow 允許在一個句子或文檔處理的過程中動態創建神經網路架構。
穀歌一直致力於改善文字內容的可讀性,
並已開發了多種工具供人們使用,
從生成電子郵件回復到機器翻譯,
不一而足。
去年夏天,
穀歌開源了 SynataxNet,
一個用於分析和理解語法結構的神經網路框架。
它被應用在 TensorFlow 深度學習自然語言處理模型 Parsey McParseface 中——該模型是目前用於分析英語性能最佳的模型。
很快谷歌又發佈了作為 Parsey 擴展的另外 40 個語言的預訓練模型(Parseys Cousins)。
穀歌希望通過構建這些系統説明整個社區,
並消除語言隔閡。
昨天,
穀歌又開源了一些新模型。
SyntaxNet 升級
穀歌發佈了 SyntaxNet 的一項重大升級內容。 該公司宣稱此項升級結合了其在多語種語言理解問題上幾乎一年的研究成果,
例如, 本次升級使得建立學習用各種字元組成單詞的基於字元的模型變得更簡單了(比如:把『c-a-t』 組合成 『cat』)。 通過執行該過程, 模型可以學習相互之間有關聯的詞, 因為它們共用同樣的部分(比如:『cats』 是 『cat』 的複數形式, 它們共用了一個詞幹;『wildcat』是 『cat』 的一種)。 同樣的, Parsey 和 Parseys Cousins 是成系列結構的詞彙。 所以結果是, 模型在訓練中被強迫去記住它看見過的單詞,
舉個例子, 看看下面這個句子(語法正確但無意義):
這句話最初是由 Andrew Ingraham 創造的, 他曾解釋道:「你不知道它在說什麼, 我也不知道。 但我們假設它是英語, 我們知道『doshes』被『gostak』給『distimmed』了,
ParseySaurus
為了展示升級版 SyntaxNet 提供的新功能, 穀歌發佈了一套名為 ParseySaurus 的預訓練模型。 些模型使用上述基於字元的輸入標記法, 因此可以更好地根據它們的拼寫以及上下文內容來預測新單詞的含義。 ParseySaurus 模型遠比 Parseys Cousins 準確得多(減少了 25% 的錯誤), 特別是對於構詞複雜的語言如俄語;或黏著語, 如日語、韓語和土耳其語。 在這些語言中, 每個單詞可能存在幾十種變體, 並且在模型訓練期間可能永遠不會出現這些形式中的大多數——即使是在非常大的語料庫中。
例如以下虛構俄語單句, 和前面的例子一樣, 整句仍無意義, 但單詞的尾碼讓句子結構有了明確的解釋:
即使穀歌的俄語 ParseySaurus 模型從來沒有看到過這些單詞, 它仍可以通過檢查構成每個單詞的字元序列正確地分析句子。 而且在分析時, 系統可以解析出單詞的多種屬性(注意:這裡比英語示例中多了一些形態特徵)。 以下是一個 ParseySaurus 模型分析單句的視覺化分析圖:
每個正方形代表神經網路中的一個節點,連線代表他們的連接。圖左側的「尾部」顯示了將輸入作為一個長字串的模型,他們被間歇地傳遞到右側,其中豐富的連接網路顯示了將片語成短語並產生句法解析的模型。
每個正方形代表神經網路中的一個節點,連線代表他們的連接。圖左側的「尾部」顯示了將輸入作為一個長字串的模型,他們被間歇地傳遞到右側,其中豐富的連接網路顯示了將片語成短語並產生句法解析的模型。