您的位置:首頁>科技>正文

AR熱潮過後, 智慧語音成了下一個潮流

隨著VR/AR這股熱潮逐漸冷卻之後, 2017年電視圈子又火了另外一個東西——智慧語音技術, 還有一種說法叫做人工智慧, 說的樸素一點就是電視上的語音交互。 雖然不是什麼新鮮的概念, 可是最近所有電視廠商的每一場春季發佈會, 幾乎都在著重的強調自家電視的智慧語音技術, 似巧合, 又非巧合。 智慧語音技術為何在這個時間點在智慧電視上井噴?值得我們為此探討一番。

智慧語音的風口真來了?

投資界流行這樣一句話:投資要投“第三眼美女”, 第一眼、第二眼美女交往的門檻和成本都比較高, 而只有第三眼美女是屬於大眾的,

對應到產品上, 就是任何技術產品都要到第三代才能被大眾廣泛接受, 才能長時間的存在下去。

人工智慧技術從50年代的控制論與早期神經網路, 走到如今的AlphaGo、Master, 現在正好在經歷技術發展的第三個階段。 50年代末是一波高潮很多死掉了,

到70年代的時候國家自然科學基金會都不支持了。 80-90年代又活躍了一次, 但許多認知科學家強烈反對當時很火的一個人工智慧概念“物理符號系統假設”, 認為身體是推理的必要條件, 加上科研經費的削減, 又死了。 今天正好是第三波, 理論上機遇比較大。

第三代技術應該足夠下方到消費領域, 接下來我們看看各電視廠商智慧語音技術具體的應用情況如何。

TCL:發佈會上TCL著重演示了人工智慧助手“小T”, 具備感知、認知、服務、學習的三大特性。 而“小T”是TCL集團與騰訊、阿裡在人工智慧及雲服務上進行資料打通, 實現資源分享的結晶。

長虹:推出以電視機為中心的人工智慧平臺AI Center。 據悉長虹除了與IBM、科大訊飛等達成合作, 也與杜比、騰訊、華帝, 以及清華大學、西安交大、微軟、中科院等結成“人工智慧產業聯盟”。

微鯨:微鯨科技推出了微鯨智慧語音電視2.0高端產品醉薄A系列, 並宣佈微鯨全線產品也將進入2.0時代。 其與科大訊飛與美國麻省理工媒體實驗室、微軟等, 分別在語音遙控、多媒體交互領域、人臉識別等方面達成了合作。

樂視:從樂視一代超級電視開始就搭載有語音功能, 超級電視語音技術經歷從合作到自主研發的過程, 樂視的超級語音技術, 不僅包括語音辨識和語義分析, 其自主研發的語音合成TTS技術已全面上線。

幾乎每一個廠商都在強調對語音認知已從功能層面上升到人工智慧。 而且背後還有巨大的合作團隊, 與知名的語音技術和人工智慧平臺密切合作和研發。 這種全軍出擊的局面, 很難否定智慧語音在電視行業的發展盛況。 但盛況並不意味著技術和商業的足夠成熟。

語音辨識究竟有多難?

為什麼智慧語音技術發展了這麼長時間, 還是做不到對語音和語意的精准識別呢?我們有必要先瞭解一下語音辨識是怎麼做到的?

聲音實際上是一種波紋,就像自然中的光譜一樣。如果要對聲音進行分析,就要先把聲音的這種波紋切分成很很多小片段,就好比一個視頻由很多幀畫面構成,畫面又由很多個圖元點構成一樣,語音也可以切分成很多幀。所以語音辨識的大概流程可以歸納為以下幾點:

採集:聲波資訊分段採集

編碼:把每一單位長度的語音變成多維向量(內容資訊)

訓練:從資料中學習對語音的判斷,而不是用人工的規則。 用資料庫和建立模型讓語音系統自我學習(如果遇到方言,需要建立獨立的一套系統)

解碼:用訓練好的模型組合起來就可以通過判斷新的語音向量,來識別語音了。

回饋:將分析結果通過設備播放出來。

極樂MR:【www.jilemr.com】,國內第一家混合現實平臺

聲音實際上是一種波紋,就像自然中的光譜一樣。如果要對聲音進行分析,就要先把聲音的這種波紋切分成很很多小片段,就好比一個視頻由很多幀畫面構成,畫面又由很多個圖元點構成一樣,語音也可以切分成很多幀。所以語音辨識的大概流程可以歸納為以下幾點:

採集:聲波資訊分段採集

編碼:把每一單位長度的語音變成多維向量(內容資訊)

訓練:從資料中學習對語音的判斷,而不是用人工的規則。 用資料庫和建立模型讓語音系統自我學習(如果遇到方言,需要建立獨立的一套系統)

解碼:用訓練好的模型組合起來就可以通過判斷新的語音向量,來識別語音了。

回饋:將分析結果通過設備播放出來。

極樂MR:【www.jilemr.com】,國內第一家混合現實平臺

Next Article
喜欢就按个赞吧!!!
点击关闭提示