百度的人工智慧新產品,是一個電腦速記員【好奇心日報】
百度用人工智慧技術做了新產品。
百度矽谷實驗室(SVAIL)週一上線了網頁應用 SwiftScribe,
SwiftScribe 目前還處在內測階段,並未開放,不過你可以通過一個演示示例瞭解它是怎麼工作的。SwiftScribe 支持上傳時長 1 個小時以內的 wav 或 mp3 檔,目前只接受英文。接下來它需要花點時間生成文字,官方說法是,1 分鐘的錄音需要不到 30 秒、1 小時的錄音需要 20 分鐘左右。
接下來你會在網頁上看到轉錄好的文字,但這並不意味著轉錄結束。文本不會區分大小寫、沒有標點符號,更沒有分段,你需要在文字方塊中手動編輯,然後再做匯出。這個過程也會被百度記錄,就像所有的人工智慧學習過程一樣,它用來説明演算法糾正錯誤,提高準確率。
文字方塊底部有一排工具列,播放按鈕開啟,一個高亮的標識會跟隨語音標出閱讀的進度,方便你停下來查看這個單詞對應的語音。這個工具列還有變速、標記的功能。
這個過程就相當於用機器演算法取代了速記員、聽寫員的工作。“SwiftScribe 會在廣泛的領域內帶來積極影響,提高生產力,包括醫療機構、法律、商業和媒體。”Tian Wu 在博客中說,
Tian Wu 在接受採訪時表示,他們以後還會增加對視頻檔的語音辨識支援,也會添加自動插入標點符號等功能。
語音辨識並不是什麼新鮮事物,你手機裡的各種語音助理比如 Siri、 Cortana 都基於此,用戶關心的唯一問題可能是到底識別的準確性有多高。
按照 Tian Wu 的介紹,
當時的研究重點在怎麼提高嘈雜環境下的英語語音辨識準確率。百度收集了 9600 個人 7000 小時的語音樣本,添加了 15 種雜訊,把樣本擴充到 10 萬小時。吳恩達說這套系統的錯誤率比同期的微軟 Bing Speech、Google Speech API 等競爭對手低 10%。
2015 年,矽谷人工智慧實驗室又發表論文公佈了 Deep Speech 2 ,這個系統開始學習漢語,
到 2016 年,百度利用 Deep Speech 技術推出基於 Android 的語音輸入應用 TalkType,強調輸入法對“語音優先”。同一年,Deep Speech 2 還入選了《MIT 評論》評出的“ 2016 年十大突破技術”,入選的理由是“語音辨識技術讓智慧手機變得更易操作”。
可以確定的是,百度之後還會花費更多的精力、更多的錢來支持人工智慧的研究,這是李彥宏反復提及的最新故事。
上個月的財報電話會議上,李彥宏說會壓縮百度糯米和百度外賣的補貼和行銷費用、公司的未來在人工智慧領域:“人工智慧是改變互聯網和傳統工業的一個巨大機會。”
與之對應的是,百度 2016 年的營收漲了 6.3%、淨利潤少了三分之二。這是百度自成立以來,年度淨利潤首次下跌。而百度總收入中,依然有九成以上來自廣告業務。
題圖來自 Pixabay
喜歡這篇文章?去 App 商店搜 好奇心日報 ,每天看點不一樣的。
李彥宏說會壓縮百度糯米和百度外賣的補貼和行銷費用、公司的未來在人工智慧領域:“人工智慧是改變互聯網和傳統工業的一個巨大機會。”與之對應的是,百度 2016 年的營收漲了 6.3%、淨利潤少了三分之二。這是百度自成立以來,年度淨利潤首次下跌。而百度總收入中,依然有九成以上來自廣告業務。
題圖來自 Pixabay
喜歡這篇文章?去 App 商店搜 好奇心日報 ,每天看點不一樣的。