研究人員正在就如何讓機器在各種不同的設定條件下識別人類語言而不懈努力, 從即時交互到離線, 再到預先錄製的語音郵件皆在此列。 作為其中的一類重要應用, 離線轉錄甚至可用於政府監管工作。
而在這場機器學習的軍備競賽當中, 微軟或許在語音轉錄準確度方面略微領先於IBM。
今年三月, IBM公司研究人員表示, 在預先錄製的陌生人對於既定話題, 諸如運動專案的英文電話交流中, 單詞識別錯誤率僅為5.5%。 本周, 他們在瑞典斯德哥爾摩舉行的2017年INTERSPEECH會議上介紹並公佈了此項研究的同行評審結果。
上周日, 微軟公司在其公佈的一篇博客文章與技術白皮書中聲稱在同樣的任務條件下, 微軟方案在這方面略有提升, 已經將單詞錯誤率降低為5.1%。
工作原理與IBM類似, 其聲學與語言建模的演算法採用深度學習架構。 微軟方面表示去年其單詞錯誤率已為5.9%,
Woodland同時指出, 除了識別陌生人之間的談話外, IBM的新文章中還轉錄了家庭成員之間較為隨意的談話內容(錯誤率為10.3%)。 相比之下, 微軟的論文只解決了相對而言“更容易”的問題, 當陌生人之間交流時, 由於言語更加正式, 因此內容更容易理解。
Woodland還表示, 由於該項研究結果會根據不同任務而變化, 所以很難“確定”人類識別級別的指標。 並且, 微軟演算法可能在更難的資料組上表現更差, 或者獲得與IBM相似的結果。
對於微軟演算法是否可以應用於其他資料組還尚不明確。 研究人員的演算法將可能通過調試而專門用於測試電話通話, 而不會轉向立足媒體檔案進行語音搜索或者實現廣播資料轉錄。