穀歌發佈語言處理框架SyntaxNet升級，識別率提高25%

選自research.google

作者： David Weiss等

機器之心編譯

參與：李澤南、晏奇

此項升級進一步擴展了 TensorFlow的功能，使這一框架可以進行多層次語言結構的聯合建模，而且，它也讓 TensorFlow 允許在一個句子或文檔處理的過程中動態創建神經網路架構。

穀歌一直致力於改善文字內容的可讀性，並已開發了多種工具供人們使用，從生成電子郵件回復到機器翻譯，不一而足。去年夏天，穀歌開源了 SynataxNet，一個用於分析和理解語法結構的神經網路框架。它被應用在 TensorFlow 深度學習自然語言處理模型 Parsey McParseface 中——該模型是目前用於分析英語性能最佳的模型。很快谷歌又發佈了作為 Parsey 擴展的另外 40 個語言的預訓練模型（Parseys Cousins）。穀歌希望通過構建這些系統説明整個社區，並消除語言隔閡。昨天，穀歌又開源了一些新模型。

SyntaxNet 升級

穀歌發佈了 SyntaxNet 的一項重大升級內容。該公司宣稱此項升級結合了其在多語種語言理解問題上幾乎一年的研究成果，

這項成果現已開放給任何感興趣來搭建文本處理與理解系統的人。升級的核心是一項可以使得對輸入語句的豐富變體進行學習成為可能的新技術。具體而言，此項升級擴展了 TensorFlow，使 TensorFlow 可以允許多層次語言結構的聯合建模，而且，它也讓 TensorFlow 允許在一個句子或文檔處理的過程中動態創建神經網路架構。

例如，本次升級使得建立學習用各種字元組成單詞的基於字元的模型變得更簡單了（比如：把『c-a-t』組合成『cat』）。通過執行該過程，模型可以學習相互之間有關聯的詞，因為它們共用同樣的部分（比如：『cats』是『cat』的複數形式，它們共用了一個詞幹；『wildcat』是『cat』的一種）。同樣的， Parsey 和 Parseys Cousins 是成系列結構的詞彙。所以結果是，模型在訓練中被強迫去記住它看見過的單詞，

並且主要基於語境來決定之前未見過單詞的語法功能。

舉個例子，看看下面這個句子（語法正確但無意義）：

這句話最初是由 Andrew Ingraham 創造的，他曾解釋道：「你不知道它在說什麼，我也不知道。但我們假設它是英語，我們知道『doshes』被『gostak』給『distimmed』了，

我們也知道一個『distimmer』的『doshes』是個『gostak』。」構詞學和語法學中的系統模式允許我們猜測每個單詞的語法功能——即使這些單詞完全不知所云：我們知道『doshes』是『dosh』的複數（就像前面的『cats』一樣），而『distim』是 distim 的第三人稱單數形式。基於這種分析我們可以得出句子的整個結構，即使我們從未見過這些單詞。

ParseySaurus

為了展示升級版 SyntaxNet 提供的新功能，穀歌發佈了一套名為 ParseySaurus 的預訓練模型。些模型使用上述基於字元的輸入標記法，因此可以更好地根據它們的拼寫以及上下文內容來預測新單詞的含義。 ParseySaurus 模型遠比 Parseys Cousins 準確得多（減少了 25% 的錯誤），特別是對於構詞複雜的語言如俄語；或黏著語，如日語、韓語和土耳其語。在這些語言中，每個單詞可能存在幾十種變體，並且在模型訓練期間可能永遠不會出現這些形式中的大多數——即使是在非常大的語料庫中。

例如以下虛構俄語單句，和前面的例子一樣，整句仍無意義，但單詞的尾碼讓句子結構有了明確的解釋：

即使穀歌的俄語 ParseySaurus 模型從來沒有看到過這些單詞，它仍可以通過檢查構成每個單詞的字元序列正確地分析句子。而且在分析時，系統可以解析出單詞的多種屬性（注意：這裡比英語示例中多了一些形態特徵）。以下是一個 ParseySaurus 模型分析單句的視覺化分析圖：

每個正方形代表神經網路中的一個節點，連線代表他們的連接。圖左側的「尾部」顯示了將輸入作為一個長字串的模型，他們被間歇地傳遞到右側，其中豐富的連接網路顯示了將片語成短語並產生句法解析的模型。