華文網

科大訊飛劉俊峰:人機交互語音辨識技術對汽車智慧化影響與推動

1月25-26日,2018全球自動駕駛論壇在武漢·中國光穀舉辦,本次論壇以“啟發創新·開放共用”為主題,會議期間,科大訊飛智能汽車事業部總經理劉俊峰發表了主題演講,演講內容如下:

科大訊飛智能汽車事業部總經理 劉俊峰

各位汽車界的朋友、同仁,大家早上好!

正如華南理工大學歐陽老師所講,能在今天這麼早到這來的都是生死之交,我也是昨天頂風冒雪,合肥到武漢該停的高鐵都停了,而我們買的那一班最後晚了6個小時,還是到了武漢,

這就是緣份。感謝周總在這麼多年以來對於訊飛的支援,我們必須要成為蓋世汽車網強有力的夥伴,我也希望通過蓋世汽車這樣的平臺向大家釋放更多的思考和有關我們的消息。

今天的演講從汽車是什麼這個角度開始。從1886年第一台賓士車,汽車的專利被正式宣佈,到1908年正式地讓汽車從一個貴族的玩具走入平常百姓家,1956年中國第一台解放車下線,代表中國從商用車到世界頂尖的進展到中國第一台紅旗轎車1959年10月份參加國慶閱兵,

汽車逐步成為人們通行和身份的代表。然30年前滿街如果稱為豪華車的可能就只有幾個,30年過去了這些車十幾代的子子孫孫在中國市場上跑著,仍舊是一個交通的工具。現在隨著中國設計、中國製造的發展,中國也出現了讓世界舉世矚目的設計感和操控感和整個對於真正老百姓的影響力的好車。
還有一些新生的造車勢力會把一些新的概念、服務體驗帶給更多的人。作為一個交通工具來講,它其實已經可以做得很好了,至少能夠解決掉我們從A到B很多的問題,此外,它還是一個城市的名片,是我們的玩具,給我們帶來很多的工作機會,還是很多自由職業者賺錢的工具。當然,它一方面給我們帶來了樂趣、便利,也帶走了我們的時間,有的時候還威脅到了我們的生命,
很多人都在思考這種問題,尤其你在面對孩子的時候,不禁要思考這個問題,未來得汽車是什麼?未來這一代成長到買車的時候,他們需要的車是什麼?如果這些問題沒有很好地解決,也許下一代人碰到出行工具,這樣產品的本身就出現了矛盾。

很多人都在說,它還是一個交通工具嗎?思考到我們最原始、傳統的馬身上,除了A到B之外,還是人情感交流的夥伴,是我們的戰友、朋友,

是家裡非常重要的固定財產。我們這一代人是跟著變形金剛一起長大的,它是能夠保衛我們的一個大傢伙嗎?更多豪華汽車給了我們他們的詮釋,從外觀、功能、出行的模式,甚至像豐田這麼保守的日系企業都出來說他們的競爭對手不是汽車廠,而是亞馬遜、穀歌,他們要幹什麼?就是從汽車本體上出現了很多延伸,這個行業面臨相同的問題,汽車以後可能是什麼?

我們瞭解到,新車車聯網的配置比率已經從2016年的16%到了2017年的21%,以中國前裝市場的配置數量來計算,去年大概有200多萬輛車具備了聯網功能,無獨有偶,去年中國前裝市場語音交互的裝配量達到了260萬,如果聯網的話,從交互模式上語音一定是必須用的,更多一些服務的連接和一些對話模式的出現,都是為了滿足從智慧車到聯網車,到以後更多的模式上,這個產品之中關鍵的對話模式又是什麼?

汽車“四化”已經提了多年,基本上可以能夠明確,這“四化”一個都不會走空。在中國汽車發展政策上2017年尤其集中,如三部委發佈的《中國智慧網聯發展規劃》等,這些代表國家得重視度,在汽車發生屬性轉變之後,應該做點什麼。在新的命題下,ABC可能真正在汽車之內給我們帶來很多交互層面、體驗層面、服務層面的變化。

再來說科大訊飛,截止到2017年已經成立了18年,這一路毀譽參半,尤其是2017年非常精彩,我們被各大媒體或者是各種黑水軍不斷地推到風頭浪尖之上,我們做的就是把人工智慧技術帶到各個行業中去,從教育、醫療、政法、汽車,從更多我們認為人工智慧可以提升效率的大環境上深入佈置。我們作為人工智慧的國家隊,在技術投入上從來沒有手軟過。去年7月份,我們發佈了一個BATI,國家四大智慧平臺,創新平臺,訊飛第一次放在跟BAT同樣的位置,而四大創新平臺裡面強調的各個方向上只有訊飛還在堅持自己的主業,我們就是要把語音互到人工智慧做到全球最大。《麻省理工科技評論》給我們全球第一的位置, 而在2016年在Google舉辦的CHiME大賽上,科大訊飛包攬國際多通道語音分離和識別大賽三項冠軍,2017年的7月到8月,先後在斯坦福閱讀理解大賽上連續兩次刷新世界記錄。

這是從汽車變化開始,大家開始思考更多的汽車之外的事情,核心的詞應該是交流。我們提出的方案有兩部分,這是我們從整個事業部成立之初到現在一直在稟承的,一方面要給汽車的前端帶來更智慧的服務,另外一方面要讓汽車的廠商主題之內更精益。我們希望不管是從客服解決方案到大資料優化解決方案到系統平臺建設,都能給車廠提供更精益的系統解決方案,同時讓人和車的交互更智慧。

接下來看下我們訊飛語音核心發展歷程,2012年我們正式從中國汽車市場前裝開始,到量產,從語音辨識到全國PUI的搜索,2014年把車內語音交互的準確率提高到了90%,尤其是降低模組的保證下,能夠保證對車內大部分聲音的抗噪,2015年能夠支持車內更靈活的語音辨識,2017年實現了全場景的免換型交互,依託於公司更多的技術資源平臺,為汽車帶來源源不斷的新的技術和新的創新,基本上可以這麼說,在2011年之後,中國從語音交互層面,遠遠地跑在了世界的前端。現在我們能夠為整個行業提供幾乎無死角的語音交互的系統性的解決方案,從降噪、聲紋、語音、搜索,基本上能覆蓋所有的語音交互。前裝裝車量超過200萬,在車上使用語音的活躍使用者已經超過了400萬,這個數字讓我們感到非常欣慰,也是這個行業在我們產生變化的時候,能夠看好、信任,能夠給我們更多的意見。

除了語音,我們在電腦視覺上亦開始發力,科大訊飛在國際自動駕駛領域權威評測集 Cityscapes 獲得平均81.4%的精度,取得了該項評測的第一名,並刷新了世界記錄,第二名是Google,這裡面吃虧的是有一些我們認為對交通並沒有什麼影響的地方沒有標出來,比如說路上有一些反的牌子蓋掉了,車標蓋掉了,其他的該看的都看到了,這個演算法跑在成熟的量產車平臺之上,能夠用演算法優化能力解決路面分割和360的高清全景。

這是我們用此系統做的智慧泊車影像,在此上面我們可以看到,找到一個車位元系統會提醒他這個車位應該怎麼樣打,打什麼樣的角落。這一解決方案或許用在在沒有那麼貴的車,尤其適合新司機。有可能這個時候我們不需要自動泊車,只是用演算法做一點點運用的創新就可以解決掉。我們的產品具備能聽會說到能察言觀色,在汽車的內部和外部全面地感知能力。

再來講下我們的飛魚系統,去年10月9號發佈的飛魚2.0系統上,把原來沒有打開更深的思考和更深地能夠和外部講的東西打開了,這個飛魚2.0關注的是互聯網服務、場景連接,智慧交互、視覺輔助駕駛系統,橫向對於環境越來越瞭解,縱向對於駕駛者狀態的關注、狀態的監護,最後我們希望能夠走到真正的虛擬司機,真正的智慧汽車。去年我們重新更新了自己的這一套VI體系,定義了一個新的名字叫飛魚智行,它是汽車和智慧的合成,一條魚躍在空中我們希望能一躍而起,讓汽車和IT和人工智慧非常好地結合。

2.0系統定義的最重要的是懂汽車和懂行的,作為這麼多主機廠商背後那個做技術的合作夥伴,我們一定要對這個行業吃得更深,我們工程化交付的整個體系是按照開發完全適配的,整個的過程,不用外行話來解釋什麼叫聯網化服務,什麼叫人工智慧解決方案,在這樣一套體系之內就是要站在車廠背後,服務好每一個車廠合作夥伴。2.0的系統框架就是這樣子,給車廠定制化開發汽車智慧化的資訊服務、運營平臺,有一個資料的分析平臺,分析的AIUI是上面的運用和關聯後面的服務,對話引擎是原來的語音助理,飛魚智盒是對應的硬體系統,如果盲目地在前裝做一些產品規劃和服務,有可能因為時間的問題喪失到用戶最關注的新功能和新服務,所以在我們小飛魚系列的智慧硬體上會優先把一些小想法和可能的智慧服務給使用者,如果好就放在前裝產品上面,如果不好就直接幹掉。這就是用後裝來疊代前裝的過程。

語音對話的能力,這裡面有很多新的元素,這一次我們做到了更窄的波數。可以做到免喚醒,用場景的語意喚醒,你跟他說我要去哪,或者我要聽什麼歌的時候會優先回應你,主駕和副駕可以搶麥,誰優先喚醒它它就優先回應誰。飛魚UIAI這一套系統又幾個特色:智、快、主動交互,在3.0或者是2.0,非得要說你好XX,XX你好,這個詞我們在2011年定義出來之後,現在都變成了大家都接受的喚醒模式,下一步不用喚醒了,真正做到語意化的接入,這是我們不斷演算法優化實現的。信源群,我們有40多萬的開發者,我們用技術換內容、換服務,也有為汽車方向簽約的幾十個資源方,把它聚合了,變成能夠服務各大車廠的服務聚合的平臺。以及各車廠每個車廠差異化的品牌服務。

飛魚智盒,這個盒子和全球汽車電子定義是一樣的,我們感覺到或許它下一步就是一個趨勢上一定會出現的東西,從視覺到聲音能夠做充分地融合性的交互。我們完全可以用演算法優化能力把視覺的演算法放在這個模組上面,它不是簡單地取代一個模組,而是從視覺到聲音的交互,從視覺、聲音、圖像的交互,可以做到更充分地融合。剛才大家看到的那個視頻,畫線停車,為什麼大家感覺到新?因為原來在360環境下,只是把360當成現實性,沒有想到我跟360這個顯示器能夠交互,就可以引發出來更多地從圖像到視覺到聲音,更多層面的充分性、融合性地交互,這樣就更有意思。

資料工廠,每個人都在搶抓資料,資料有可能是冗餘的,這個冗餘可能會帶來成本,不是價值。另外,資料要充分利用,這個資料要真正標定,同時要安全保護,所有都是強調怎麼樣更好地利用資料,我們也是幾個車廠大資料平臺的提供方。這個過程中我們都是一次次不斷地嘗試,什麼樣的合作模式是車廠能夠接受的,是主機廠真正能夠信任的,雙方可以背靠背地互相對外說,戰略合作這個事情是沒有問題的。

今天講了三個產品,一是飛魚對話引擎有新的更新,今年有一些車型就會陸續用飛魚的對話引擎,飛魚的AIUI會在前裝上更新,另外是飛魚智盒和還有資料工廠。小飛魚,這個產品是我們面向未來做無屏化,無按鍵設計的,作為車內人跟手機連接更安全的介質,你用手機常用的功能,基本上手機是不用掏出來的,用三兩句話完成交互的內容,這個產品以後可能在收音機的載體上做簡單地融合,就能夠為所有的車輛提供幾百元水準的智慧化解決方案,正好符合了人的需求,不想花那麼多的錢買一塊裝修用的大螢幕,而是把我的手機用得更好。這個一方面解決是前裝市場更好地交互,另一方面解決低端市場跟手機的連接。

再次感謝周總給我們提供了平臺和機會,也感謝大家聽我講述這麼多,過了臘八就是春,給大家拜個早年。在這個冬天希望大家參與到蓋世汽車的活動中,感覺到暖暖的春意,謝謝!

我們瞭解到,新車車聯網的配置比率已經從2016年的16%到了2017年的21%,以中國前裝市場的配置數量來計算,去年大概有200多萬輛車具備了聯網功能,無獨有偶,去年中國前裝市場語音交互的裝配量達到了260萬,如果聯網的話,從交互模式上語音一定是必須用的,更多一些服務的連接和一些對話模式的出現,都是為了滿足從智慧車到聯網車,到以後更多的模式上,這個產品之中關鍵的對話模式又是什麼?

汽車“四化”已經提了多年,基本上可以能夠明確,這“四化”一個都不會走空。在中國汽車發展政策上2017年尤其集中,如三部委發佈的《中國智慧網聯發展規劃》等,這些代表國家得重視度,在汽車發生屬性轉變之後,應該做點什麼。在新的命題下,ABC可能真正在汽車之內給我們帶來很多交互層面、體驗層面、服務層面的變化。

再來說科大訊飛,截止到2017年已經成立了18年,這一路毀譽參半,尤其是2017年非常精彩,我們被各大媒體或者是各種黑水軍不斷地推到風頭浪尖之上,我們做的就是把人工智慧技術帶到各個行業中去,從教育、醫療、政法、汽車,從更多我們認為人工智慧可以提升效率的大環境上深入佈置。我們作為人工智慧的國家隊,在技術投入上從來沒有手軟過。去年7月份,我們發佈了一個BATI,國家四大智慧平臺,創新平臺,訊飛第一次放在跟BAT同樣的位置,而四大創新平臺裡面強調的各個方向上只有訊飛還在堅持自己的主業,我們就是要把語音互到人工智慧做到全球最大。《麻省理工科技評論》給我們全球第一的位置, 而在2016年在Google舉辦的CHiME大賽上,科大訊飛包攬國際多通道語音分離和識別大賽三項冠軍,2017年的7月到8月,先後在斯坦福閱讀理解大賽上連續兩次刷新世界記錄。

這是從汽車變化開始,大家開始思考更多的汽車之外的事情,核心的詞應該是交流。我們提出的方案有兩部分,這是我們從整個事業部成立之初到現在一直在稟承的,一方面要給汽車的前端帶來更智慧的服務,另外一方面要讓汽車的廠商主題之內更精益。我們希望不管是從客服解決方案到大資料優化解決方案到系統平臺建設,都能給車廠提供更精益的系統解決方案,同時讓人和車的交互更智慧。

接下來看下我們訊飛語音核心發展歷程,2012年我們正式從中國汽車市場前裝開始,到量產,從語音辨識到全國PUI的搜索,2014年把車內語音交互的準確率提高到了90%,尤其是降低模組的保證下,能夠保證對車內大部分聲音的抗噪,2015年能夠支持車內更靈活的語音辨識,2017年實現了全場景的免換型交互,依託於公司更多的技術資源平臺,為汽車帶來源源不斷的新的技術和新的創新,基本上可以這麼說,在2011年之後,中國從語音交互層面,遠遠地跑在了世界的前端。現在我們能夠為整個行業提供幾乎無死角的語音交互的系統性的解決方案,從降噪、聲紋、語音、搜索,基本上能覆蓋所有的語音交互。前裝裝車量超過200萬,在車上使用語音的活躍使用者已經超過了400萬,這個數字讓我們感到非常欣慰,也是這個行業在我們產生變化的時候,能夠看好、信任,能夠給我們更多的意見。

除了語音,我們在電腦視覺上亦開始發力,科大訊飛在國際自動駕駛領域權威評測集 Cityscapes 獲得平均81.4%的精度,取得了該項評測的第一名,並刷新了世界記錄,第二名是Google,這裡面吃虧的是有一些我們認為對交通並沒有什麼影響的地方沒有標出來,比如說路上有一些反的牌子蓋掉了,車標蓋掉了,其他的該看的都看到了,這個演算法跑在成熟的量產車平臺之上,能夠用演算法優化能力解決路面分割和360的高清全景。

這是我們用此系統做的智慧泊車影像,在此上面我們可以看到,找到一個車位元系統會提醒他這個車位應該怎麼樣打,打什麼樣的角落。這一解決方案或許用在在沒有那麼貴的車,尤其適合新司機。有可能這個時候我們不需要自動泊車,只是用演算法做一點點運用的創新就可以解決掉。我們的產品具備能聽會說到能察言觀色,在汽車的內部和外部全面地感知能力。

再來講下我們的飛魚系統,去年10月9號發佈的飛魚2.0系統上,把原來沒有打開更深的思考和更深地能夠和外部講的東西打開了,這個飛魚2.0關注的是互聯網服務、場景連接,智慧交互、視覺輔助駕駛系統,橫向對於環境越來越瞭解,縱向對於駕駛者狀態的關注、狀態的監護,最後我們希望能夠走到真正的虛擬司機,真正的智慧汽車。去年我們重新更新了自己的這一套VI體系,定義了一個新的名字叫飛魚智行,它是汽車和智慧的合成,一條魚躍在空中我們希望能一躍而起,讓汽車和IT和人工智慧非常好地結合。

2.0系統定義的最重要的是懂汽車和懂行的,作為這麼多主機廠商背後那個做技術的合作夥伴,我們一定要對這個行業吃得更深,我們工程化交付的整個體系是按照開發完全適配的,整個的過程,不用外行話來解釋什麼叫聯網化服務,什麼叫人工智慧解決方案,在這樣一套體系之內就是要站在車廠背後,服務好每一個車廠合作夥伴。2.0的系統框架就是這樣子,給車廠定制化開發汽車智慧化的資訊服務、運營平臺,有一個資料的分析平臺,分析的AIUI是上面的運用和關聯後面的服務,對話引擎是原來的語音助理,飛魚智盒是對應的硬體系統,如果盲目地在前裝做一些產品規劃和服務,有可能因為時間的問題喪失到用戶最關注的新功能和新服務,所以在我們小飛魚系列的智慧硬體上會優先把一些小想法和可能的智慧服務給使用者,如果好就放在前裝產品上面,如果不好就直接幹掉。這就是用後裝來疊代前裝的過程。

語音對話的能力,這裡面有很多新的元素,這一次我們做到了更窄的波數。可以做到免喚醒,用場景的語意喚醒,你跟他說我要去哪,或者我要聽什麼歌的時候會優先回應你,主駕和副駕可以搶麥,誰優先喚醒它它就優先回應誰。飛魚UIAI這一套系統又幾個特色:智、快、主動交互,在3.0或者是2.0,非得要說你好XX,XX你好,這個詞我們在2011年定義出來之後,現在都變成了大家都接受的喚醒模式,下一步不用喚醒了,真正做到語意化的接入,這是我們不斷演算法優化實現的。信源群,我們有40多萬的開發者,我們用技術換內容、換服務,也有為汽車方向簽約的幾十個資源方,把它聚合了,變成能夠服務各大車廠的服務聚合的平臺。以及各車廠每個車廠差異化的品牌服務。

飛魚智盒,這個盒子和全球汽車電子定義是一樣的,我們感覺到或許它下一步就是一個趨勢上一定會出現的東西,從視覺到聲音能夠做充分地融合性的交互。我們完全可以用演算法優化能力把視覺的演算法放在這個模組上面,它不是簡單地取代一個模組,而是從視覺到聲音的交互,從視覺、聲音、圖像的交互,可以做到更充分地融合。剛才大家看到的那個視頻,畫線停車,為什麼大家感覺到新?因為原來在360環境下,只是把360當成現實性,沒有想到我跟360這個顯示器能夠交互,就可以引發出來更多地從圖像到視覺到聲音,更多層面的充分性、融合性地交互,這樣就更有意思。

資料工廠,每個人都在搶抓資料,資料有可能是冗餘的,這個冗餘可能會帶來成本,不是價值。另外,資料要充分利用,這個資料要真正標定,同時要安全保護,所有都是強調怎麼樣更好地利用資料,我們也是幾個車廠大資料平臺的提供方。這個過程中我們都是一次次不斷地嘗試,什麼樣的合作模式是車廠能夠接受的,是主機廠真正能夠信任的,雙方可以背靠背地互相對外說,戰略合作這個事情是沒有問題的。

今天講了三個產品,一是飛魚對話引擎有新的更新,今年有一些車型就會陸續用飛魚的對話引擎,飛魚的AIUI會在前裝上更新,另外是飛魚智盒和還有資料工廠。小飛魚,這個產品是我們面向未來做無屏化,無按鍵設計的,作為車內人跟手機連接更安全的介質,你用手機常用的功能,基本上手機是不用掏出來的,用三兩句話完成交互的內容,這個產品以後可能在收音機的載體上做簡單地融合,就能夠為所有的車輛提供幾百元水準的智慧化解決方案,正好符合了人的需求,不想花那麼多的錢買一塊裝修用的大螢幕,而是把我的手機用得更好。這個一方面解決是前裝市場更好地交互,另一方面解決低端市場跟手機的連接。

再次感謝周總給我們提供了平臺和機會,也感謝大家聽我講述這麼多,過了臘八就是春,給大家拜個早年。在這個冬天希望大家參與到蓋世汽車的活動中,感覺到暖暖的春意,謝謝!