華文網

傳阿裡將發佈智能音箱?自然語言處理新成果曝光

引言:近日,有外媒報導稱收到消息,阿裡巴巴AI Labs將在7月5日發佈第一款智慧音箱設備。但讀者們不僅不熟悉阿裡巴巴AI Labs,對阿裡自然語言處理方面的成果是不是也不理解?這篇文章介紹了阿裡巴巴被國際資料採擷頂會KDD2017收錄的一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智慧問答及分類中的應用》。

上周,關於阿裡巴巴成立AI Labs的消息不脛而走。事實上,該機構在2016年低調成立,主要負責阿裡巴巴集團旗下消費級AI產品研發,與iDST的定位有所區別。從機器之心收到的發佈會邀請函及其他公開消息推測,7月5日,該機構很可能發佈一款實體產品智慧音箱設備,

據外媒報導,它能夠理解中文語音指令,還能讓阿裡巴巴的用戶在淘寶上購物,短期內僅面向中國市場發售。

與此同時,機器之心獨家獲悉,阿裡巴巴一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智慧問答及分類中的應用》已被國際資料採擷頂會KDD2017收錄。

在自然語言處理的兩個核心應用場景------文本分類和智慧問答上,阿裡巴巴這套「即刻喚醒,即刻識別」神經網路模型的智慧問答準確率相比微軟的wikiqa資料集和IBM的insuranceqa資料集提升了2-4%,是目前業內最高水準。

該論文的作者、阿裡巴巴人工智慧實驗室資深演算法工程師王成龍對機器之心談到這項技術的挑戰,「初期相關模型訓練所需的語料較缺乏,

在開發的同時,我們積累起來一批獨有、海量的中文語料,有力支援了我們的模型訓練。神經網路模型的計算複雜度比較高,性能問題是線上應用的一個主要瓶頸,這一方面,我們針對神經網路模型的線上部署做了很多的優化工作,保證在大併發請求下依賴能有較好的性能。」

另一方面,基於神經網路的NLP方法都依賴分詞,英文的分詞是天然的,而中文是以「字」為單位,

這也使新品技術開發的難度有所提高。王成龍說:「英文的句子結構則更加清晰,而漢語重意合而不重形式,句子結構比較鬆散,中文相關標準語料集的缺失也是一大瓶頸。」

阿裡巴巴收到KDD2017的邀請郵件

論文顯示,阿裡巴巴研發了一款名為conv-RNN的通用推理混合框架,

用於文本的語義建模,無縫集成了從卷積和迴圈神經網路結構中提取語言資訊的不同方面的優點從而加強新框架的理解力。可有效甄別使用者的對話意圖,自主決策對話中的策略,實現「自然語言無縫理解,跨領域自由切換」。

阿裡巴巴首創的conv-RNN混合框架

業界普遍認為,自然語言處理是人工智慧中最難的部分,也是決定AI是否「智慧」的關鍵因素。王成龍在接受機器之心採訪時說,「阿裡巴巴在語音交互技術方面已經深耕多年,並已在多類產品中應用。」

業界普遍認為,自然語言處理是人工智慧中最難的部分,也是決定AI是否「智慧」的關鍵因素。王成龍在接受機器之心採訪時說,「阿裡巴巴在語音交互技術方面已經深耕多年,並已在多類產品中應用。」