雷鋒網AI科技評論按:自動語音辨識(Automatic speech recognition, ASR)領域被廣泛使用的開源語音辨識工具包 Kaldi現在也集成了TensorFlow。 這一舉措讓Kaldi的開發者可以使用TensorFlow來部署他們的深度學習模組, 同時TensorFlow的使用者也可以更為方便地使用Kaldi的各種經驗。
建立一個可以在各種語言、口音、環境和對話類型中理解人類語言的ASR系統, 是一項非常複雜的任務。 傳統的ASR系統是將許多單獨的模組集成一個流水線, 其中每個模組都在前一個模組的輸出上進行。 原始音訊資料從一端進入, 然後從另一端輸出識別語音轉錄內容。 典型的基於統計模式識別方法的語音辨識系統一般會由信號處理及特徵提取模組、聲學模組、發音詞典、語言模組和解碼器等組成。 在Kaldi工具包中, 為了支援越來越多的終端使用者應用程式, 集成了更多的模組。
在過去幾年裡, 隨著深度神經網路的發展,
演算法——深度學習演算法在一些問題, 例如聲學環境(雜訊)、特定語言發音、詞彙範圍等方面能夠給出非常好的結果, 但部署的過程中並不總是能很好的適應;
資料——構建不同語言、不同聲學環境的ASR系統需要大量的多種類型的資料, 但我們可能沒有恰好需要的這種資料。
規模——一般能支援大量使用和許多種語言的ASR系統, 通常會耗費大量的計算。
我們以ASR系統中的語言模組來說。 語言模組是大多數先進的ASR系統的關鍵部分, 他們主要依靠統計模型來揭示語言單元的內在統計規律,
總部位於西雅圖的IntelligentWire公司是一家通過雲軟體來彌合即時手機通話和業務應用之間差距的公司。 他們的目標就是將企業代表與客戶進行的數千次對話內容即時分析和處理, 並自動處理資料登錄和回應請求等任務。 為了使ASR系統在這種情況下有用, 就必須保證它能以非常低的延遲、提供非常準確的轉錄,
將TensorFlow集成到Kaldi後, 他們對ASR的開發週期減少了一個數量級。 例如上面所說的語言模組, 如果將TensorFlow應用到這個模組, 那麼從模型道概念驗證可能只需要幾天, 而不是幾個星期;對於整個ASR系統, 開發週期也從幾個月減少到了幾個星期。 此外, TensorFlow的集成也使Kaldi所需要的資料大為簡化。
將TensorFlow作為一個模組集成到Kaldi中, 對於Kaldi研發人員來說, 好處是巨大的。 同樣的, 這種集成也讓TensorFlow的開發人員能夠輕鬆地訪問強大的ASR平臺, 並且能夠將現有的語音處理流程(如Kaldi強大的聲學模型)納入到機器學習應用程式中。
我們希望Kaldi-TensorFlow的集成能夠將這兩個充滿活力的開放源碼的開發社區更加貼近, 共同支援各種新的基於語言的產品和研究的突破。
雷鋒網注——
集成模型代碼:https://github.com/kaldi-asr/kaldi
示例:https://github.com/kaldi-asr/kaldi/tree/master/egs/ami/s5/local/tfrnnlm
本文為雷鋒網根據谷歌開發者Raziel Alvarez的博客《Kaldi now offers TensorFlow integration》整理而成, Alvarez是穀歌的研究工程師, IntelligentWire的創始人。