Matrix Voice：一個內嵌FPGA硬體加速器的低價語音辨識平臺

背景

與機器進行語言交談，讓它聽明白你在說什麼，語音辨識技術將人類這一曾經的夢想變成了現實。語音辨識就好比機器的聽覺系統，該技術讓機器可以通過識別和理解，把語音信號轉變為相應的文本或命令。自1952年貝爾實驗室研製出世界上第一個能識別10個英文數位發音的實驗系統，到如今，語音辨識技術有了突破性的發展，不再局限於識別孤立詞的識別，現在，可以實現連續的多語言的即時識別。在現實生活中，語音辨識的產品也已經變得十分普遍，比如iPhone手機自帶的Srir應用軟體， google基於安卓系統開發的google Now以及百度語音和微軟開發的十分調皮的Cortana語音辨識軟體。

不過，目前市場上流行的都是軟體實現的語音辨識，下面將介紹一款基於FPGA實現的可應用於語言識別板卡。

MATRIX Voice語音辨識平臺

在Indiegogo項目籌資只剩下一個月的時候， MATRIX Voice開源語音平臺的籌款已經超出其預期目標$5000達到預期的289%。 MATRIX Voice是弗羅裡達邁阿密MATRIX發起的第三個眾籌項目，實際上MATRIX Voice平臺是一個只有3.14英寸的環形電路板，但是此電路板不僅相容最新的語言庫而且可以即時進行連續的語言識別，還得到多家雲端語言服務的認可，包括微軟的識別伺服器，亞馬遜的Alexa語音服務，穀歌的語音API以及Wit的ai和Houndify。就結構而言， MAXTRIX Voice是基於Xilinx 的Spartan-6 LX4 FPGA實現的，其設計外形可以作為一個器件直插到一個低功耗的Raspberry Pi的單板機上，

也可以作為一個獨立的板卡使用。

下面兩張圖分別顯示MATRIX Voice的頂層和底層版面視圖：

圖1 MATRIX Voice top view

圖2 MATRIX Voice bottom view

從上面的圖片中可以看到， MATRIX Voice 板卡的背面有七個MEMS麥克風，七個REG 多色LED，同時Spartan-6 FPGA晶片也在前面板上，在AMTRIX Voice的背面，有一個64Mbit的SDRAM和一組可以相容Raspberry pi 單板機的I/O介面。由於這是MATRIX實現系列開發板中的最新版，所以，針對MATRIX Voice板卡已經有具備比較複雜的分層的軟體堆支援，包括一個為透明化FPGA 代碼的HAL（硬體抽象層）和一個C++函式程式庫，還有以一個介於視頻流介面和視覺庫（主要是Raspberry Pi攝像頭）之間的中間層，此外，還為MATRIX Voice頂層提供了MATRIX 作業系統和高層API介面。同時，在基於MATRIX Voice開發的時候，使用者可以根據自己習慣選擇喜歡的語言，主要是因為MATRIX Voice軟體庫支援比較多的語言，

包括主流的C++、Python、JavaScript以及硬體人員常用的Verilog 和VHDL語言。下圖可以看到MATRIX Voice平臺的軟體發展層次：

圖3 Software layer view

總結

現在，科創眾籌專案已經越來越普遍，基於FPGA開發功能更強靈活性更大的前沿應用是一個十分好的點子，不僅使得產品具有更自由豐富的介面，還可以自由加入有針對性的加速器模組，使得最終產品不僅性能高還成本低。 Xilinx開發的FPGA晶片中不乏可以同時提供軟體程式設計和硬體程式設計的晶片，所以選擇Xilinx，讓你的產品更可靠更強大吧。