華文網

從機器翻譯到人工智慧,中譯語通想做驅動多產業發展的“專業引擎”

視頻消費的時代,內容平臺們每年要更新數以萬計的劇集,

花費動輒幾億元的版權投入。而版權劇的引進早已經不是“字幕組”這種傳統方式能夠匹配的了,字幕組“人肉翻譯”的傳奇時代,正隨著機器翻譯的成熟而被終結。

從2013年開始,一項基於多語種語音辨識和機器翻譯的視頻翻譯軟體——字幕通(YeeCaption)拯救了那些花下重金採購版權的視頻網站,將繁瑣的視頻字幕翻譯製作工作最大程度的便捷化,成功實現從切分時間軸、字幕(語音)識別,

到字幕翻譯、字幕製作及成品匯出的一站式操作。

機器翻譯技術,不僅改變了國人追劇的方式,也改變了互聯網視頻巨頭們的技術流程。

這款神奇產品字幕通的母公司中譯語通科技(北京)有限公司(以下簡稱“中譯語通”),一直身處行業幕後,為行業提供專業的語言服務。據鈦媒體瞭解,目前中國的互聯網用戶消費的海外版權劇,有超過80%的字幕翻譯是通過中譯語通的工具完成的。

中譯語通CEO於洋

中譯語通在技術聯合研發方面,同國內外的高校和研究機構建立廣泛而深入的戰略合作關係,與中國人民大學新聞學院、清華大學新聞學院分別建立新聞大資料聯合實驗室,展開就開放新聞資料的各種演算法研究。

同時,中譯語通是語言大資料聯盟發起單位之一。目前國內包括北京外國語大學、上海外國語大學、北京語言大學、澳門理工學院、香港中文大學等,和海外維也納大學、紐約州立大學、日內瓦大學、加拿大約克大學等在內的150多所大學都是聯盟的成員單位。中譯語通與聯盟成員在大資料分析、機器翻譯和語音辨識等領域建立聯合實驗室,以加速推動技術的研發與成果轉化。

“語言不應該是人們溝通或獲取資訊的障礙”,這成了中譯語通積極投入機器翻譯技術研發的初衷。

今年6月,中譯語通 CEO 于洋向鈦媒體透露,自2013年至2016年三年間,中譯語通在機器翻譯和大資料研發方面投入很大,在機器翻譯研發累計投入已經超過2億元,在大資料分析方面每年投入研發資金超過1億元。2017年,他們加強並擴大了對跨語言大資料的技術深挖,不僅全面提速機器翻譯在垂直領域和語種數量的語料訓練,

而且在資料採擷、各類演算法的高品質資料分析和人工智慧應用等方面進一步加大研發投入。

2016年,中譯語通先後完成B輪2.5億元融資和B+輪1.5億融資,半年內連續獲得的兩輪融資(合計4億元人民幣)讓這家公司備受關注。

深入應用場景的大資料服務

去年12月,在北京舉行的譯見大資料峰會上,中譯語通正式對外宣佈了B+輪融資,並發佈了譯見大資料分析平臺的2.0版本。至此,一直期望摘掉“翻譯公司”標籤的中譯語通,已經形成了成熟的語言科技生態“譯雲”和大資料分析“譯見”兩大平臺產品矩陣,跨入了大資料與人工智慧公司行列。如今,中譯語通名入2016年中國大資料准獨角獸企業榜單,並且從中國本土人工智慧公司的融資額度排名來看,中譯語通已躋身第四位。

中譯語通從2015年開始切入大資料分析領域,正式提出了跨語言大資料概念,並後續推出了跨語言的應用產品譯見大資料分析平臺,面向多種垂直行業、全球企業機構和政府平臺的大資料技術,讓中譯語通找到了商業模式的核心。

和國內眾多大資料公司一樣,譯見大資料平臺的應用場景主要在於為商業機構提供分析決策、市場研究、資訊分析、精准行銷及公共趨勢預測等。使用者在譯見的資料平臺上可以就任一主題或多個主題進行分析,例如“空氣污染”、 “經濟增長”、“城鎮化”等關鍵字,系統能夠繪製出指定時間範圍內三者之間的內在聯繫和趨勢預測,並通過視覺化效果清晰地展示出來。

譯見大資料平臺視覺化效果圖

“現在我們看到的每一個資料來源,我們有超過200萬個獨立網站資料來源,超過65種語言,其實都是經過人工精確分類的,每個資料來源進行單獨的技術配置,獲取的資料進行智慧地結構化後,進行大資料分析。龐大的非結構化資料的知識圖譜就是這樣日復一日的建構起來的。”於洋告訴鈦媒體。

人工智慧+大資料的服務,通過各大合作夥伴也深入到了不同的垂直領域。中譯語通承擔了中國銀聯全球11個語言7x24小時的全球多語言呼叫中心,每個月超過幾十萬分鐘的呼叫時長;為陝西省建設“一帶一路”跨語言大資料分析平臺;在2016年的雲棲大會上成為阿裡雲的戰略合作夥伴之一; 2017年初的德國漢諾威工業博覽會上,中譯語通還和海爾達成戰略合作,一同助力工業企業的全球競賽。

截止到2017年,中譯語通的資料採擷能力已經覆蓋全球200多個國家,65種語言,超過200多萬個獨立資料來源,同時擁有EB級全球互聯網開放文本與社交資料和千億級的知識圖譜。

也正是如此,有行業人士將中譯語通對標為美國大資料公司Palantir。成立於2004年的 Palantir,是協助美國政府,為中央情報局(CIA)、美國國土安全局、美國聯邦調查局(FBI)、美國國家安全局等關鍵部門提供有效的、可預見性大資料分析服務。

公開信息顯示,Palantir最新公佈的估值已達200億美元。

中譯語通在資料服務上的差異化,就是其提出的“跨語言大資料”概念,中譯語通機器翻譯功能已實現全球32個語種,992個語言方向的機器翻譯。“如果去除了資料的語言標籤,把搜索出來的英語、日語、法語、葡萄牙語等所有語言的大資料彙集起來,定性定量地分析,得到的結果的價值將遠遠超過我們之前所理解的大資料的價值。”於洋說。

大資料能力,直接決定了這家公司在機器翻譯領域的競爭力。於洋告訴鈦媒體,“機器翻譯是人工智慧和大資料中最為複雜的一項技術,大家把它稱為‘皇冠上的明珠’。從最早研發機器翻譯到後來快速的理解自然語言處理技術、機器學習的應用,才得以延展出今天的跨語言大資料搜索與分析,這也是中譯語通跨語言大資料的‘基石’。”

惠及全球的語言大資料支援

“一帶一路”戰略的落地中,中譯語通也是積極參與者之一。

2017年6月,譯見大資料分析平臺再次走向海外,基於豐富的海外資源,這家公司很早就啟動了國際化。在俄羅斯及東歐獨聯體最大的科技創新盛會STARTUP VILLAGE上,中譯語通分別與基金組織斯科爾科沃基金會、綜合排名第一的莫斯科國立大學、俄羅斯知名移動互聯網公司i-Free達成了戰略合作。

中譯語通在俄羅斯 STARTUP VILLAGE 展覽上

中譯語通公司副總裁張曉丹在大會上發表了主旨演講,她向鈦媒體介紹,未來中譯語通將在莫斯科國立大學構建以俄語為中心的跨語言大資料平臺,俄羅斯在內的東歐20多個國家提供跨語言大資料智庫服務;同時為i-Free人工智慧平臺的多領域場景化應用提供技術支援。

中國國家資訊中心出具的一份《“一帶一路”大資料包告(2016)》顯示,中國與一帶一路沿線64個國家之間國別合作情況中,中俄“國別合作指數”位於首位,這也是中譯語通將2017年的海外拓展重點選在俄羅斯的一大背景。

為了讓跨語言大資料能惠及全球,中譯語通很早就向行業開放了自身的機器翻譯及大資料技術,借此不斷進行語料的訓練和積累,同時進行技術升級,為獲取更多的跨語言大資料提供了巨大能量和空間。

Powered by GTCOM

中譯語通的兩大平臺產品矩陣的背後,是兩百人的研發團隊。過去一年,中譯語通一直在致力於完成大資料產品的標準化。于洋向鈦媒體透露,今年7月底公司將再次推出重要產品,包括四個標準化的大資料產品、一個多語言搜索平臺及演算法平臺。

于洋未向鈦媒體透露目前擁有的核心演算法團隊,但他表示,“演算法不僅僅需要頂尖的技術大咖,更需要的是我們對資料的想像力”。

“如果說大資料產業的1.0時代,競爭者們處在抓取和採集資料來源、追求資料規模的時代;那麼,2.0時代屬於‘精准標籤化’。3.0時代大資料應用更加智慧,也就是說,完成結構化的資料知識圖譜將落地到不同的垂直領域,為我們帶來超越想像的趨勢研判價值。”於洋說。

2017年中譯語通將加快國際化步伐,加速大資料產品的反覆運算,擴展金融、醫療及資本市場等垂直領域的服務應用。“中譯語通要成為各個垂直行業的‘專業大資料引擎’”於洋強調說。

互聯網發展到今天的階段,人類已經進入了一個完全由資料驅動的世界——powered by data,Powered by AI,而中譯語通想成為其中的驅動力量之一。如果說上一個十年,科技創新是為了“改變語言溝通之路”,如今,這家公司正在轉向一個全新的使命:開創一個 Powered by GTCOM 的新十年。

至此,一直期望摘掉“翻譯公司”標籤的中譯語通,已經形成了成熟的語言科技生態“譯雲”和大資料分析“譯見”兩大平臺產品矩陣,跨入了大資料與人工智慧公司行列。如今,中譯語通名入2016年中國大資料准獨角獸企業榜單,並且從中國本土人工智慧公司的融資額度排名來看,中譯語通已躋身第四位。

中譯語通從2015年開始切入大資料分析領域,正式提出了跨語言大資料概念,並後續推出了跨語言的應用產品譯見大資料分析平臺,面向多種垂直行業、全球企業機構和政府平臺的大資料技術,讓中譯語通找到了商業模式的核心。

和國內眾多大資料公司一樣,譯見大資料平臺的應用場景主要在於為商業機構提供分析決策、市場研究、資訊分析、精准行銷及公共趨勢預測等。使用者在譯見的資料平臺上可以就任一主題或多個主題進行分析,例如“空氣污染”、 “經濟增長”、“城鎮化”等關鍵字,系統能夠繪製出指定時間範圍內三者之間的內在聯繫和趨勢預測,並通過視覺化效果清晰地展示出來。

譯見大資料平臺視覺化效果圖

“現在我們看到的每一個資料來源,我們有超過200萬個獨立網站資料來源,超過65種語言,其實都是經過人工精確分類的,每個資料來源進行單獨的技術配置,獲取的資料進行智慧地結構化後,進行大資料分析。龐大的非結構化資料的知識圖譜就是這樣日復一日的建構起來的。”於洋告訴鈦媒體。

人工智慧+大資料的服務,通過各大合作夥伴也深入到了不同的垂直領域。中譯語通承擔了中國銀聯全球11個語言7x24小時的全球多語言呼叫中心,每個月超過幾十萬分鐘的呼叫時長;為陝西省建設“一帶一路”跨語言大資料分析平臺;在2016年的雲棲大會上成為阿裡雲的戰略合作夥伴之一; 2017年初的德國漢諾威工業博覽會上,中譯語通還和海爾達成戰略合作,一同助力工業企業的全球競賽。

截止到2017年,中譯語通的資料採擷能力已經覆蓋全球200多個國家,65種語言,超過200多萬個獨立資料來源,同時擁有EB級全球互聯網開放文本與社交資料和千億級的知識圖譜。

也正是如此,有行業人士將中譯語通對標為美國大資料公司Palantir。成立於2004年的 Palantir,是協助美國政府,為中央情報局(CIA)、美國國土安全局、美國聯邦調查局(FBI)、美國國家安全局等關鍵部門提供有效的、可預見性大資料分析服務。

公開信息顯示,Palantir最新公佈的估值已達200億美元。

中譯語通在資料服務上的差異化,就是其提出的“跨語言大資料”概念,中譯語通機器翻譯功能已實現全球32個語種,992個語言方向的機器翻譯。“如果去除了資料的語言標籤,把搜索出來的英語、日語、法語、葡萄牙語等所有語言的大資料彙集起來,定性定量地分析,得到的結果的價值將遠遠超過我們之前所理解的大資料的價值。”於洋說。

大資料能力,直接決定了這家公司在機器翻譯領域的競爭力。於洋告訴鈦媒體,“機器翻譯是人工智慧和大資料中最為複雜的一項技術,大家把它稱為‘皇冠上的明珠’。從最早研發機器翻譯到後來快速的理解自然語言處理技術、機器學習的應用,才得以延展出今天的跨語言大資料搜索與分析,這也是中譯語通跨語言大資料的‘基石’。”

惠及全球的語言大資料支援

“一帶一路”戰略的落地中,中譯語通也是積極參與者之一。

2017年6月,譯見大資料分析平臺再次走向海外,基於豐富的海外資源,這家公司很早就啟動了國際化。在俄羅斯及東歐獨聯體最大的科技創新盛會STARTUP VILLAGE上,中譯語通分別與基金組織斯科爾科沃基金會、綜合排名第一的莫斯科國立大學、俄羅斯知名移動互聯網公司i-Free達成了戰略合作。

中譯語通在俄羅斯 STARTUP VILLAGE 展覽上

中譯語通公司副總裁張曉丹在大會上發表了主旨演講,她向鈦媒體介紹,未來中譯語通將在莫斯科國立大學構建以俄語為中心的跨語言大資料平臺,俄羅斯在內的東歐20多個國家提供跨語言大資料智庫服務;同時為i-Free人工智慧平臺的多領域場景化應用提供技術支援。

中國國家資訊中心出具的一份《“一帶一路”大資料包告(2016)》顯示,中國與一帶一路沿線64個國家之間國別合作情況中,中俄“國別合作指數”位於首位,這也是中譯語通將2017年的海外拓展重點選在俄羅斯的一大背景。

為了讓跨語言大資料能惠及全球,中譯語通很早就向行業開放了自身的機器翻譯及大資料技術,借此不斷進行語料的訓練和積累,同時進行技術升級,為獲取更多的跨語言大資料提供了巨大能量和空間。

Powered by GTCOM

中譯語通的兩大平臺產品矩陣的背後,是兩百人的研發團隊。過去一年,中譯語通一直在致力於完成大資料產品的標準化。于洋向鈦媒體透露,今年7月底公司將再次推出重要產品,包括四個標準化的大資料產品、一個多語言搜索平臺及演算法平臺。

于洋未向鈦媒體透露目前擁有的核心演算法團隊,但他表示,“演算法不僅僅需要頂尖的技術大咖,更需要的是我們對資料的想像力”。

“如果說大資料產業的1.0時代,競爭者們處在抓取和採集資料來源、追求資料規模的時代;那麼,2.0時代屬於‘精准標籤化’。3.0時代大資料應用更加智慧,也就是說,完成結構化的資料知識圖譜將落地到不同的垂直領域,為我們帶來超越想像的趨勢研判價值。”於洋說。

2017年中譯語通將加快國際化步伐,加速大資料產品的反覆運算,擴展金融、醫療及資本市場等垂直領域的服務應用。“中譯語通要成為各個垂直行業的‘專業大資料引擎’”於洋強調說。

互聯網發展到今天的階段,人類已經進入了一個完全由資料驅動的世界——powered by data,Powered by AI,而中譯語通想成為其中的驅動力量之一。如果說上一個十年,科技創新是為了“改變語言溝通之路”,如今,這家公司正在轉向一個全新的使命:開創一個 Powered by GTCOM 的新十年。