您的位置:首頁>科技>正文

搜狗語音王硯峰:聽寫產品背後是搜狗語音技術的能力和底氣

[釘科技專訪]假如用“春風十裡”形容速度之快, 用在人工智慧領域應該再合適不過。 CB Insights資料表明, 2016年, 人工領域的共有涵蓋13個種類的超過1600家公司獲得了超過90億美元的融資。 《烏鎮指數:全球人工智慧發展報告2016》則顯示, 2016年, 全球每10.9個小時誕生一家人工智慧企業。

市場並不缺乏概念炒作者, 但技術的發展更需要應用和落地, 在釘科技看來, 從相關分支切入, 再在細分領域產品化, 單點滲透, 或許是在現階段突破市場的最好方式。

自2012年涉足領域, 搜狗就專注于自然交互和深度計算, 以語言為核心, 展開以文字和語音為主的對話模式。

去年8月, 搜狗推出知音引擎, 力圖讓使用者獲得更自然的語音交互。 時隔一年, 搜狗聽寫推出, 主打語音即時轉文字功能。 為更深入瞭解產品及其背後的戰略構想, 釘科技與另幾家媒體小夥伴對搜狗語音交互技術中心總經理王硯峰進行了專訪。

搜狗語音交互技術中心總經理 王硯峰

搜狗聽寫:解放雙手, 用嘴寫作

國內的職業寫手以及記者等媒體從業人員的總數接近6500萬, 即便面對龐大的人口總數, 也並不能被作為小眾, 這也正是搜狗聽寫主推的用戶群體。

記者常常面臨這樣的問題:每天要應付多個不同場合的採訪工作, 稿件又需要即時撰寫發佈, 這就代表, 即便是在從一地到另一地的路上, 也要爭分多秒。 不過, 面對時長不短且可能有雜音、地方口音干擾的錄音材料, 有時也會感到無所適從。

職業寫手倒是不需要打一槍換一個地方, 不過, 這類人通常與鍵盤有著更長時間的接觸, “指尖疲勞症”或許比記者更甚, 但是, 從椅子到沙發, 從沙發到床的“陣地”轉換,

並不能解決這種“痛楚”。

針對上述痛點, 搜狗聽寫從以下五個方面入手:一是長時語音聽寫, 即連續錄音+即時轉文字;二是文本錄音同時保存, 無縫對齊;三是支持重點標注;四是只是邊聽邊改;五是支援多用戶端同步, 可以用網頁端進行比較重要的編輯工作。 細節上, 還支援自動加書名號等操作。

如此, 記者就可以在場景方便的情況下隨時整理資料甚至撰寫稿件, 而職業寫手, 更是可以躺在床上, 或者望著窗外, 寫作只需要動動嘴。

王硯峰表示, 事實上, 搜狗聽寫不僅是專門為文字工作者定制的應用, 也是每個人都會需要的應用, 比如, 語音便簽、社交分享這些功能就是很普遍的需要。 搜狗希望在產品上做出不一樣的地方,

幫助用戶切實解決問題, 並且通過差異點, 同時體現在技術和產品方面的能力。

搜狗知音:屬性開放, 持續升級

搜狗聽寫, 依託的是去年8月發佈的“知音”語音交互引擎。 當天, 搜狐網路大廈電梯裡的LED屏還在播放搜狗十周年生日的一段視頻。

王硯峰表示, “知音”在語音辨識、語音糾錯、知識圖譜資訊整合能力及多輪對話理解方面具有技術優勢。 而這種優勢, 在搜狗方面看來, 得益於輸入法及搜索積累下來的大量資料對於其語義理解能力的錘煉。

聽寫產品與知音引擎相隔一年, 這一年, 被王硯峰描述為“知音努力學習的一年”。 王硯峰表示, 過去一年, 語音辨識技術服務了更多使用者。 2015年5月份, 每年會有5500萬的語音DAU。

2016年1月份, 增長到1.25億。 今年5月份已經達到了2.6億的規模。 這個過程, 也是知音在大資料的基礎上自主學習的過程。

據瞭解, 今年5月份, 搜狗語音的核心技術在應用方面取得了突破, 在GMIS大會上, 語音跟人工速記進行了五輪PK, 最終的結果是4:1完勝。 因為當時現場的網路問題, 導致其中有一場的粵語識別沒有聯網。 搜狗方面表示, 到現在為止, 機器的識別能力跟普通的速記相比已經取得了本質性的領先。 在這樣的過程中, 機器本身有處理速度的好處, 還有知識的好處, 普通的速記不太可能知道那麼多的專業術語, 不太可能知道那麼多的英文。 在這個過程中, 機器是充分的把自己的處理速度、處理能力, 以及對知識的權威性發揮出來。 這是聽寫產品得以在今年發佈的底氣。

後續會著力解決兩個方面的問題,王硯峰如是說:一是遠場,因為交互不可能局限於手機這類個人屬性較高的終端;二是降噪,包括環境中的聲音干擾,包括地方口音對識別準確度的影響都屬於這一範疇。

至於知音引擎的發展方向,王硯峰說,知音在一定程度上會以OS的形式存在,為不同類型的終端產品賦能。

智慧硬體:技術落實,把握入口

開放的屬性,這是知音引擎誕生時就具備的。開放,就是在出行等垂直領域的延伸,為相關合作夥伴提供語音交互支援,向更多的終端入口進行佈局。畢竟,人工智慧或者語音交互作為技術,終究需要實際的載體。

手機等終端,特別是電視以及車載系統,都是搜狗所關注的品類。從去年開始,搜狗進行了AI技術的輸出,跟小米、魅族等手機廠商合作。在傳統的家電領域,跟各個行業的龍頭合作,電視是跟創維合作,白電跟海爾合作等等。

賦能合作夥伴之外,搜狗也試圖憑藉自身實力,在智慧終端機領域延伸出方向。從大方向上,王硯峰表示,搜狗自主推出的終端產品前期會集中在可穿戴設備和智慧家居上,手機、電視不是現階段所考慮的,而硬體的產出,有可能會選擇與協力廠商合作。

當被問到是否會考慮進軍當前比較火爆的智慧音箱市場,王硯峰給出了自己的判斷,沒有被“繁榮”的現象所影響,王硯峰很冷靜的表示:相對於手機、電視等終端,音箱產品由於交互性(螢幕)方面的短板,並不具備獨特性或者說不可替代性,從需求上來看,量級優勢也不明顯,也就不足以釋放技術能力或者說承擔“用戶教育”的功能,因此暫時不會考慮推出相關的自主產品。

(釘科技網原創,轉載務必注明出處)

這是聽寫產品得以在今年發佈的底氣。

後續會著力解決兩個方面的問題,王硯峰如是說:一是遠場,因為交互不可能局限於手機這類個人屬性較高的終端;二是降噪,包括環境中的聲音干擾,包括地方口音對識別準確度的影響都屬於這一範疇。

至於知音引擎的發展方向,王硯峰說,知音在一定程度上會以OS的形式存在,為不同類型的終端產品賦能。

智慧硬體:技術落實,把握入口

開放的屬性,這是知音引擎誕生時就具備的。開放,就是在出行等垂直領域的延伸,為相關合作夥伴提供語音交互支援,向更多的終端入口進行佈局。畢竟,人工智慧或者語音交互作為技術,終究需要實際的載體。

手機等終端,特別是電視以及車載系統,都是搜狗所關注的品類。從去年開始,搜狗進行了AI技術的輸出,跟小米、魅族等手機廠商合作。在傳統的家電領域,跟各個行業的龍頭合作,電視是跟創維合作,白電跟海爾合作等等。

賦能合作夥伴之外,搜狗也試圖憑藉自身實力,在智慧終端機領域延伸出方向。從大方向上,王硯峰表示,搜狗自主推出的終端產品前期會集中在可穿戴設備和智慧家居上,手機、電視不是現階段所考慮的,而硬體的產出,有可能會選擇與協力廠商合作。

當被問到是否會考慮進軍當前比較火爆的智慧音箱市場,王硯峰給出了自己的判斷,沒有被“繁榮”的現象所影響,王硯峰很冷靜的表示:相對於手機、電視等終端,音箱產品由於交互性(螢幕)方面的短板,並不具備獨特性或者說不可替代性,從需求上來看,量級優勢也不明顯,也就不足以釋放技術能力或者說承擔“用戶教育”的功能,因此暫時不會考慮推出相關的自主產品。

(釘科技網原創,轉載務必注明出處)

Next Article
喜欢就按个赞吧!!!
点击关闭提示