Facebook強勢發佈開源語音辨識工具包——wav2letter
今日淩晨,Facebook AI研究中心宣佈開源語音辨識工具包wav2letter!這是一款簡單高效的端到端自動語音辨識(ASR)系統,
16年11月,Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上發佈文章,正式提出了wav2letter。
文章中研究者介紹,這是一個簡單的端到端語音辨識模型,結合了基於卷積網路的聲學模型和圖解碼。其被訓練輸出文字,轉錄語音,而無需強制對齊音素。wav2letter還引入了一個自動的序列標注訓練分割準則,而不需要與CTC一致的對齊方式,這種方式更簡單。
專案代碼已經發佈至GitHub,如果你想直接開始進行語音轉錄,你可以使用同時被開源的預訓練好的一些模型,前提是完成必要的安裝。當然,目前能識別的只有英文語音哦!
開原始程式碼GitHub連結:
https://github.com/facebookresearch/wav2letter
論文arXiv連結:
https://arxiv.org/abs/1609.03193
Facebook也發佈了公開信介紹這一開源項目,包括該項目主要負責人Ronan Collobert、Facebook AI研究中心負責人Yann Lecan等在內的研究者都在推特上介紹了這一發佈。
文摘菌摘錄了部分公開信內容如下:
我們剛剛開源我們的語音辨識工具:wav2letter!
代碼地址:
https://github.com/facebookresearch/wav2letter
我們將其與在LibriSpeech語料庫中預先訓練的一些模型一起發佈,支援我們的最新論文Letter-Based Speech Recognition with Gated ConvNets。
wav2letter是在Torch上編寫的一個簡單的工具包,簡化了對端到端語音辨識系統的訓練,並提供了一個允許快速解碼的獨立解碼器。
它使我們能夠複現我們最近的3篇論文(詳見參考資料)。
敬請期待我們的更多研究。
Gabriel Synnaeve,Vitaliy Liptchinsky,Neil Zeghidour和Christian Puhrsch。
更多參考資料:
語料庫 LibriSpeech。
http://www.openslr.org/12
論文 Letter-Based Speech Recognition with Gated ConvNets。
https://arxiv.org/abs/1712.09444
論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。
https://arxiv.org/abs/1609.03193
論文 Learning Filterbanks from Raw Speech for Phone Recognition。
https://arxiv.org/abs/1711.01161