華文網

Facebook強勢發佈開源語音辨識工具包——wav2letter

今日淩晨,Facebook AI研究中心宣佈開源語音辨識工具包wav2letter!這是一款簡單高效的端到端自動語音辨識(ASR)系統,

wav2letter 實現的是論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架構。

16年11月,Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上發佈文章,正式提出了wav2letter。

文章中研究者介紹,這是一個簡單的端到端語音辨識模型,結合了基於卷積網路的聲學模型和圖解碼。其被訓練輸出文字,轉錄語音,而無需強制對齊音素。wav2letter還引入了一個自動的序列標注訓練分割準則,而不需要與CTC一致的對齊方式,這種方式更簡單。

專案代碼已經發佈至GitHub,如果你想直接開始進行語音轉錄,你可以使用同時被開源的預訓練好的一些模型,前提是完成必要的安裝。當然,目前能識別的只有英文語音哦!

開原始程式碼GitHub連結:

https://github.com/facebookresearch/wav2letter

論文arXiv連結:

https://arxiv.org/abs/1609.03193

Facebook也發佈了公開信介紹這一開源項目,包括該項目主要負責人Ronan Collobert、Facebook AI研究中心負責人Yann Lecan等在內的研究者都在推特上介紹了這一發佈。

文摘菌摘錄了部分公開信內容如下:

我們剛剛開源我們的語音辨識工具:wav2letter!

代碼地址:

https://github.com/facebookresearch/wav2letter

我們將其與在LibriSpeech語料庫中預先訓練的一些模型一起發佈,支援我們的最新論文Letter-Based Speech Recognition with Gated ConvNets。

wav2letter是在Torch上編寫的一個簡單的工具包,簡化了對端到端語音辨識系統的訓練,並提供了一個允許快速解碼的獨立解碼器。

它使我們能夠複現我們最近的3篇論文(詳見參考資料)。

敬請期待我們的更多研究。

Gabriel Synnaeve,Vitaliy Liptchinsky,Neil Zeghidour和Christian Puhrsch。

更多參考資料:

語料庫 LibriSpeech。

http://www.openslr.org/12

論文 Letter-Based Speech Recognition with Gated ConvNets。

https://arxiv.org/abs/1712.09444

論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。

https://arxiv.org/abs/1609.03193

論文 Learning Filterbanks from Raw Speech for Phone Recognition。

https://arxiv.org/abs/1711.01161