百度的人工智慧新產品，是一個電腦速記員【好奇心日報】

百度用人工智慧技術做了新產品。

百度矽谷實驗室（SVAIL）週一上線了網頁應用 SwiftScribe，基本的功能是把音訊資料轉錄成文字。在一篇博客文章中，

項目主管 Tian Wu 說他們解決了一個重要的“痛點”：消耗大量時間的逐字聽寫轉錄。

SwiftScribe 目前還處在內測階段，並未開放，不過你可以通過一個演示示例瞭解它是怎麼工作的。 SwiftScribe 支持上傳時長 1 個小時以內的 wav 或 mp3 檔，目前只接受英文。接下來它需要花點時間生成文字，官方說法是， 1 分鐘的錄音需要不到 30 秒、1 小時的錄音需要 20 分鐘左右。

接下來你會在網頁上看到轉錄好的文字，但這並不意味著轉錄結束。文本不會區分大小寫、沒有標點符號，更沒有分段，你需要在文字方塊中手動編輯，然後再做匯出。這個過程也會被百度記錄，就像所有的人工智慧學習過程一樣，它用來説明演算法糾正錯誤，提高準確率。

文字方塊底部有一排工具列，播放按鈕開啟，一個高亮的標識會跟隨語音標出閱讀的進度，方便你停下來查看這個單詞對應的語音。這個工具列還有變速、標記的功能。

這個過程就相當於用機器演算法取代了速記員、聽寫員的工作。 “SwiftScribe 會在廣泛的領域內帶來積極影響，提高生產力，

包括醫療機構、法律、商業和媒體。 ”Tian Wu 在博客中說，專業領域的人工聽寫效率低， 1 小時的錄音往往需要花費 4-6 個小時，每分鐘語音的成本在 1 美元， SwiftScribe 能把完成工作的時間平均縮短 40%。

Tian Wu 在接受採訪時表示，他們以後還會增加對視頻檔的語音辨識支援，也會添加自動插入標點符號等功能。

語音辨識並不是什麼新鮮事物，你手機裡的各種語音助理比如 Siri、 Cortana 都基於此，用戶關心的唯一問題可能是到底識別的準確性有多高。

按照 Tian Wu 的介紹， SwiftScribe 基於他們的最新研究成果 Deep Speech 2。 2014 年百度的首席科學家吳恩達剛剛入職百度不久，就帶著一個 10 人的團隊開發 Deep Speech，一套語音辨識系統。

當時的研究重點在怎麼提高嘈雜環境下的英語語音辨識準確率。百度收集了 9600 個人 7000 小時的語音樣本，

添加了 15 種雜訊，把樣本擴充到 10 萬小時。吳恩達說這套系統的錯誤率比同期的微軟 Bing Speech、Google Speech API 等競爭對手低 10%。

2015 年，矽谷人工智慧實驗室又發表論文公佈了 Deep Speech 2 ，這個系統開始學習漢語，也提高了對不同英語口音識別的能力。

到 2016 年，百度利用 Deep Speech 技術推出基於 Android 的語音輸入應用 TalkType，強調輸入法對“語音優先”。同一年， Deep Speech 2 還入選了《MIT 評論》評出的“ 2016 年十大突破技術”，入選的理由是“語音辨識技術讓智慧手機變得更易操作”。

可以確定的是，百度之後還會花費更多的精力、更多的錢來支持人工智慧的研究，這是李彥宏反復提及的最新故事。

上個月的財報電話會議上，李彥宏說會壓縮百度糯米和百度外賣的補貼和行銷費用、公司的未來在人工智慧領域：“人工智慧是改變互聯網和傳統工業的一個巨大機會。

”

與之對應的是，百度 2016 年的營收漲了 6.3%、淨利潤少了三分之二。這是百度自成立以來，年度淨利潤首次下跌。而百度總收入中，依然有九成以上來自廣告業務。

題圖來自 Pixabay

喜歡這篇文章？去 App 商店搜好奇心日報，每天看點不一樣的。