Facebook強勢發佈開源語音辨識工具包——wav2letter

今日淩晨，Facebook AI研究中心宣佈開源語音辨識工具包wav2letter！這是一款簡單高效的端到端自動語音辨識（ASR）系統，

wav2letter 實現的是論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架構。

16年11月，Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上發佈文章，正式提出了wav2letter。

文章中研究者介紹，這是一個簡單的端到端語音辨識模型，結合了基於卷積網路的聲學模型和圖解碼。其被訓練輸出文字，轉錄語音，而無需強制對齊音素。wav2letter還引入了一個自動的序列標注訓練分割準則，而不需要與CTC一致的對齊方式，這種方式更簡單。

專案代碼已經發佈至GitHub，如果你想直接開始進行語音轉錄，你可以使用同時被開源的預訓練好的一些模型，前提是完成必要的安裝。當然，目前能識別的只有英文語音哦！

開原始程式碼GitHub連結：

https://github.com/facebookresearch/wav2letter

論文arXiv連結：

https://arxiv.org/abs/1609.03193

Facebook也發佈了公開信介紹這一開源項目，包括該項目主要負責人Ronan Collobert、Facebook AI研究中心負責人Yann Lecan等在內的研究者都在推特上介紹了這一發佈。

文摘菌摘錄了部分公開信內容如下：

我們剛剛開源我們的語音辨識工具：wav2letter！

代碼地址：

https://github.com/facebookresearch/wav2letter

我們將其與在LibriSpeech語料庫中預先訓練的一些模型一起發佈，支援我們的最新論文Letter-Based Speech Recognition with Gated ConvNets。

wav2letter是在Torch上編寫的一個簡單的工具包，簡化了對端到端語音辨識系統的訓練，並提供了一個允許快速解碼的獨立解碼器。

它使我們能夠複現我們最近的3篇論文（詳見參考資料）。

敬請期待我們的更多研究。

Gabriel Synnaeve，Vitaliy Liptchinsky，Neil Zeghidour和Christian Puhrsch。

更多參考資料：

語料庫 LibriSpeech。

http://www.openslr.org/12

論文 Letter-Based Speech Recognition with Gated ConvNets。

https://arxiv.org/abs/1712.09444

論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。

https://arxiv.org/abs/1609.03193

論文 Learning Filterbanks from Raw Speech for Phone Recognition。

https://arxiv.org/abs/1711.01161