2015年, 普強切入車載場景, 聯手四維圖新和騰訊, 共同開發出“雲+端+晶片”的智慧車聯網大資料系統。
本文系原創 首發黑智(VR-2014)作者:趙雪嬌
語音辨識是“最具前途”的領域
從北京大學和美國費城大學分別獲得電腦系碩士學位後, 何國濤曾在HP、Aruba等公司從事Opencall、Voice XML、無線閘道等產品的研究和開發, HP多媒體伺服器的語音辨識技術, 就是他所在的小組研發的。
而也就是在Aurba, 何國濤結識了蒲瑤。 後者本科畢業于中國科技大學, 是科大訊飛CEO劉慶峰同系校友, 同樣也是從事語音辨識相關產品的研發。
2008年, 科大訊飛上市, 一度壟斷國內語音辨識市場的半壁江山。 但那時的語音辨識創業領域, 還是一片待開發的處女地。 後來被蘋果收購的Siri也成立沒有多久, 而何國濤卻動了創業的念頭。
“我剛畢業時, 根本還沒有人會說自己是學人工智慧相關的。 因為那意味著失業。 ”何國濤說。
何國濤和蒲瑤最終還是決定, 在語音辨識領域做下去。 “創業, 我認為一是要有技術壁壘, 二就是要有能夠賺錢的市場。 我在惠普接觸了客戶需求, 也懂得應用, 我認為, 語音辨識仍然是最具前途的領域之一, 而當時, 其他人要進入這塊領域, 也並非容易。 ”為了解決核心演算法, 何國濤還“挖”來了自己的師弟——IBM Almaden研究中心的李全忠博士。 後者一直從事資料庫及雲計算研究, 還獲得過IBM發明成就獎。
於是, 普強資訊最初的創始團隊形成了。 何國濤擔任CEO, 負責公司運營;李全忠博士任CTO, 負責核心演算法的研究;蒲瑤(普強資訊VP)負責產品。
目前, 普強研發團隊占公司人員的80%左右, 其中博士、碩士以上學歷者超過30%。
挑戰語音大資料分析
何國濤對公司的發展方向有長期的思考。 “小公司做事要專注, 現在普強一百多人只做垂直領域, 包括車載和電話通道語音辨識, 而且要做到最好。 其實這很簡單, 就集中優勢力量做好一個小事情。 ”
普強在自身的語音辨識和語義分析技術基礎上, 就鎖定了兩個方向:語音大資料和車載。
當前, 由於智慧設備的大量應用, 大量資料, 尤其是呼叫中心等領域, 大部分數據都是語音和圖像等非結構化資料。 普強力圖提供語音大資料分析能力, 為企業解決非結構化資料分析的需求。
2010年, 普強面向呼叫中心推出了“千語語音辨識引擎系統”和“千語千尋語音分析系統”。
據介紹, 普強已經為金融、電信、保險等多個行業, 提供了準確度較高的電話通道的ASR(語音辨識)引擎。 針對呼叫中心座席與客戶的對話, 千語千尋系統的演算法和模型接入後, 能將不同地域口音的來電轉換成文字, 還能根據不同的系統使用者需求, 標注出關鍵用詞。
李全忠博士向黑智(VR-2014)介紹, “千語語音辨識引擎系統”開發應用了深度神經網路技術,
當坐席和客戶通話時, 接入了普強的千語千尋系統模型, 不僅能將不同方言的來電轉換成文字, 還能根據不同的系統使用者需求, 標注出關鍵用詞, 並針對其進行統計和專業化分析, 挖掘客戶需求;對客戶流失進行預警分析, 挖掘客戶投訴原因, 進行干預;或者替代人工質檢。 何國濤舉例說, 例如某保險公司就有2萬左右名保險銷售, 管理者需要知道如何提高銷售成功率, 客戶投訴的是什麼問題, 客戶購買保險服務的原因是什麼等。 “千尋”把這些問題都細化成文字,以解決客戶的需求,提升公司工作效率和行銷轉化率。
進行語音大資料分析,最基本的一點就是資料。李全忠表示,普強在呼叫中心電話線領域積累了十多年的資料,對電話語音資料處理和標注的積累,在業內是首屈一指的。
而對語音分析,最關鍵的比拼點,則是“快”和“准”。“準確度和識別速度往往要平衡,在不損失精度的前提下,我們可以做到最快,系統的全文識別率可達85%以上,關鍵字識別率達95%以上。”李全忠博士說。他表示,千語千尋語音分析系統目前中文語音分析速度,是國內最快的。它擁有的文本分析引擎和索引處理技術,能夠實現分析操作在秒級以內完成,而業內多數語音公司的產品則要半小時甚至更久,千語千尋比之,要高出一個數量級。
除識別引擎及分析系統外,與國內外廠商相比,普強的優勢是擁有多年呼叫中心工作經驗的專家們所組成的專業諮詢團隊,以及完整的識別設備和工具,來協助客戶進行定制化應用服務,以保障企業最高的投資報酬率。
而據何國濤對黑智(VR-2014)透露,目前普強在業界公開招投標的專案中,始終保持著最高的中標率。
聯手四維圖新,切入車載場景
經過十多年的發展,四維圖新已成為國內數位地圖內容、車聯網和動態交通資訊服務、基於位置的大資料垂直應用服務主要提供商之一。其數字地圖一直主導中國前裝車載導航市場,獲得大量、東風日產、北京現代等主流車廠的訂單。而和四維圖新的聯手,顯然加快了普強切入車載場景,迅速滲透車廠和車機系統集成商,積累大資料的步伐。
2015年,普強聯手四維圖新和騰訊,共同開發智慧車聯網大資料系統 WeDrive。其中,四維負責導航,騰訊負責內容,普強主攻前裝。
這套智慧車載語音系統,是由“雲+端+晶片”組成的。普強自主研發的是離線、線上的兩個聲學模型,其他的為集成。
陣列麥克風可抑制噪音回音,進行聲源定位。車載降噪DSP晶片可進行車載降噪去回聲,這也是普強的投資方——美國的一家晶片公司提供的。“他們只做晶片,花了大概一億美金做了十年,這就是壁壘。”
“從前端麥克風技術,包括硬體的DSP處理三到四個麥克風,到後端的雲端,整個一條脈絡已經打通了,基本上這個解決方案是最優的。”李全忠說。
另外,普強還可以做嵌入式識別,車機識別的系統直接在車機裡面做,不用跑到雲端。車載需要保證穩定性、安全性,對嵌入式識別壓力非常大。普強會針對不同的系統和車機本身的噪音特性,分低中高端方案,量身定制識別演算法。“把這些都優化進去,才能做到最佳,當然也要滿足用戶識別率的需求。”李全忠表示。
目前,普強車載語音系統已經被集成進多家國內主流車廠。普強最近也把嵌入式的演算法嵌到四維收購的公司傑發科技,後者占後裝市場的70%,大幅提高了市占率。
用戶需求優先的“田忌賽馬”戰術
在何國濤看來,“專注”還有另外一層含義,即要準確理解用戶的需求。而對人工智慧創業公司而言,演算法並不是唯一,更重要的是,理解使用者的產品需求。從產品、介面、工作流到使用者層面的交互設計,都要圍繞它進行。比如,對車載產品而言,車速變化時,會影響到語音辨識的準確率;車開得快,根本不會出現車旁邊有個人在走路的情況;車開得慢,就要小心旁邊打球的小孩……
針對使用者對產品的強需求出發,何國濤為普強提出了“田忌賽馬”的戰術。“演算法肯定有最快的,但是在語音交互領域,準確率相差一兩個點並沒有本質差別。原來從 GMM 跳到 DNN,相對準確率增加了20%到30%,是很大的提升。可是現在大家使用的都是神經網路,準確率達到95%或者96%,對用戶有什麼區別?我們沒有必要做20個系統功能,都保證96%的準確率。”
在車載領域,普強重點做的是導航、電話、音樂這幾個系統功能。“在車裡人機交互的時候,一般用戶50%以上%的需求是在導航上,40%以上是打電話,還有10%是聽音樂、聽收音機、查股票等。如果把這3個主要需求都做到近100%的準確率,那麼整個系統的準確率就能超過90%。如果大家都只有100人,別人每個功能5個人,普強的3個功能每個都有30個人並且做到最好,這就是所謂的田忌賽馬。”何國濤說。
中國一年生產約2700萬輛新車,如果人機交互的系統每輛車收取一百塊,市場規模能達到27億。如何能在這片藍海中切到大塊蛋糕?按照何國濤的設想,未來普強會將多種對話模式融合,讓車像人一樣具備視覺、聽覺等多種感知能力。比如人可以用手勢調節聲音大小、調控座椅位置。要把這些技術很順暢地切到場景裡面,這些工作更多是需要工程師來實現。“演算法是第一步,剩下10%的事情,需要再花90%的時間做好。”
語音大資料 車載
“千尋”把這些問題都細化成文字,以解決客戶的需求,提升公司工作效率和行銷轉化率。進行語音大資料分析,最基本的一點就是資料。李全忠表示,普強在呼叫中心電話線領域積累了十多年的資料,對電話語音資料處理和標注的積累,在業內是首屈一指的。
而對語音分析,最關鍵的比拼點,則是“快”和“准”。“準確度和識別速度往往要平衡,在不損失精度的前提下,我們可以做到最快,系統的全文識別率可達85%以上,關鍵字識別率達95%以上。”李全忠博士說。他表示,千語千尋語音分析系統目前中文語音分析速度,是國內最快的。它擁有的文本分析引擎和索引處理技術,能夠實現分析操作在秒級以內完成,而業內多數語音公司的產品則要半小時甚至更久,千語千尋比之,要高出一個數量級。
除識別引擎及分析系統外,與國內外廠商相比,普強的優勢是擁有多年呼叫中心工作經驗的專家們所組成的專業諮詢團隊,以及完整的識別設備和工具,來協助客戶進行定制化應用服務,以保障企業最高的投資報酬率。
而據何國濤對黑智(VR-2014)透露,目前普強在業界公開招投標的專案中,始終保持著最高的中標率。
聯手四維圖新,切入車載場景
經過十多年的發展,四維圖新已成為國內數位地圖內容、車聯網和動態交通資訊服務、基於位置的大資料垂直應用服務主要提供商之一。其數字地圖一直主導中國前裝車載導航市場,獲得大量、東風日產、北京現代等主流車廠的訂單。而和四維圖新的聯手,顯然加快了普強切入車載場景,迅速滲透車廠和車機系統集成商,積累大資料的步伐。
2015年,普強聯手四維圖新和騰訊,共同開發智慧車聯網大資料系統 WeDrive。其中,四維負責導航,騰訊負責內容,普強主攻前裝。
這套智慧車載語音系統,是由“雲+端+晶片”組成的。普強自主研發的是離線、線上的兩個聲學模型,其他的為集成。
陣列麥克風可抑制噪音回音,進行聲源定位。車載降噪DSP晶片可進行車載降噪去回聲,這也是普強的投資方——美國的一家晶片公司提供的。“他們只做晶片,花了大概一億美金做了十年,這就是壁壘。”
“從前端麥克風技術,包括硬體的DSP處理三到四個麥克風,到後端的雲端,整個一條脈絡已經打通了,基本上這個解決方案是最優的。”李全忠說。
另外,普強還可以做嵌入式識別,車機識別的系統直接在車機裡面做,不用跑到雲端。車載需要保證穩定性、安全性,對嵌入式識別壓力非常大。普強會針對不同的系統和車機本身的噪音特性,分低中高端方案,量身定制識別演算法。“把這些都優化進去,才能做到最佳,當然也要滿足用戶識別率的需求。”李全忠表示。
目前,普強車載語音系統已經被集成進多家國內主流車廠。普強最近也把嵌入式的演算法嵌到四維收購的公司傑發科技,後者占後裝市場的70%,大幅提高了市占率。
用戶需求優先的“田忌賽馬”戰術
在何國濤看來,“專注”還有另外一層含義,即要準確理解用戶的需求。而對人工智慧創業公司而言,演算法並不是唯一,更重要的是,理解使用者的產品需求。從產品、介面、工作流到使用者層面的交互設計,都要圍繞它進行。比如,對車載產品而言,車速變化時,會影響到語音辨識的準確率;車開得快,根本不會出現車旁邊有個人在走路的情況;車開得慢,就要小心旁邊打球的小孩……
針對使用者對產品的強需求出發,何國濤為普強提出了“田忌賽馬”的戰術。“演算法肯定有最快的,但是在語音交互領域,準確率相差一兩個點並沒有本質差別。原來從 GMM 跳到 DNN,相對準確率增加了20%到30%,是很大的提升。可是現在大家使用的都是神經網路,準確率達到95%或者96%,對用戶有什麼區別?我們沒有必要做20個系統功能,都保證96%的準確率。”
在車載領域,普強重點做的是導航、電話、音樂這幾個系統功能。“在車裡人機交互的時候,一般用戶50%以上%的需求是在導航上,40%以上是打電話,還有10%是聽音樂、聽收音機、查股票等。如果把這3個主要需求都做到近100%的準確率,那麼整個系統的準確率就能超過90%。如果大家都只有100人,別人每個功能5個人,普強的3個功能每個都有30個人並且做到最好,這就是所謂的田忌賽馬。”何國濤說。
中國一年生產約2700萬輛新車,如果人機交互的系統每輛車收取一百塊,市場規模能達到27億。如何能在這片藍海中切到大塊蛋糕?按照何國濤的設想,未來普強會將多種對話模式融合,讓車像人一樣具備視覺、聽覺等多種感知能力。比如人可以用手勢調節聲音大小、調控座椅位置。要把這些技術很順暢地切到場景裡面,這些工作更多是需要工程師來實現。“演算法是第一步,剩下10%的事情,需要再花90%的時間做好。”
語音大資料 車載