華文網

對標200億美元市值的Palantir,中譯語通看點在哪?

“洋蔥、蘿蔔和番茄,不相信世界上有南瓜這種東西。

它們認為那是一種空想。南瓜不說話,默默地成長著。” 中譯語通就是這樣一個默默成長的南瓜。

至於為什麼說它是那個默默成長的南瓜,這得從公司自身發展上說起。中譯語通成立於2009年,是中國對外翻譯有限公司的控股子公司,聽到公司的名字我們很容易憑藉自己的印象判斷,給它打上一個翻譯公司的標籤,但是現實中的它卻是一家人工智慧大資料公司。

從中譯語通的官網上可以看出,其產品服務解決方案主要覆蓋大資料分析、機器翻譯、智慧語音辨識和機器學習等人工智慧核心領域。

為何對標Palantir?

Palantir 是一家B2B大資料和企業級安全服務提供者,其通過開發的專利軟體為中央情報局(CIA)、美國國土安全局、美國聯邦調查局(FBI)、美國國家安全局等關鍵部門提供有效的、可預見性大資料分析服務(結構化與非結構化資料)。

目前主要有Gotham和Palantir兩大核心產品,前者主要用於國防安全、網路安全和災害預警,後者更偏重于金融、保險領域的應用。Palantir已成為僅次Uber 和 Airbnb,估值超過200億美元的美國科技創業公司。為什麼對標Palantir?與Palantir相比,中譯語通不僅具備業務上的相似性,自身產品在演算法和技術上,還擁有著全球最大規模的非結構化資料(文本、語音、圖片、影像)的即時更新和分析能力。

跨越語言的大資料,全球資料即時獲取與分析

當我們在百度搜索中文的時候,得到的結果只有中文結果,在谷歌搜索英文得到的結果只有英文。如果可以去除語言標籤,那麼對資料而言,當我們搜索一個關鍵字的時候,得到的結果應該是中文、英文、法文、俄文、德文等所有語言與這個關鍵字相關聯的結果。

而中譯語通在做的,還不僅僅止於此。在本次專訪中中譯語通CEO於洋這樣告訴虎嗅:

“在網路使用者正常的關鍵字搜索過程中,無論搜索結果是多少條,人們的閱讀習慣常常是幾條或者幾十條,且語言單一。譯見大資料要做的是不僅僅要去除掉所有語言標籤,讓使用者能夠搜到全球的相關資訊,更要把搜索到的所有幾十萬條、幾百萬條資料都能夠定性定量地分析。

美國CIA指出,世界上90%的軍事情報,都可以從開放的資料中獲取。美國對本拉登的軍事行動即是Palantir發揮了重要情報分析的作用。在今天國際上的反恐、反洗錢等重大活動,開放的非結構化資料的分析已經扮演著極為重要的角色。如此一來,中譯語通在2015年10月30日第一次提出的“跨語言大資料”概念,顯然將我們此前對大資料的認知範圍又極大地延展了。並且,由此看來中譯語通所覆蓋的資料量已經超過其對標的Palantir。

“對非機構化開放資料的分析,在商業領域能夠爆發巨大的價值。如我們可以通過開放的資料分析,清晰的畫出一項新技術的生命曲線。再如我們可以通過開放的資料給企業清晰地畫像,其全球的評價、產品系列、使用者回饋、競爭對手、新技術研發等等,這將是很有趣的一件事情”訪談中於洋說。

(圖為中譯語通譯見跨語言大資料資訊搜索與分析綜合平臺)

智慧語言科技打破溝通障礙

不是每一個人都有語言天賦,也不是每個人都能掌握多種語言,並在交流中能自如頻道切換。在採訪中我們對此功能進行了現場實測,雙語即時顯示的機器翻譯品質與效率非常高。除此以外,“譯雲”語言科技生態下還有手機端的”找翻譯“ APP、Yeekit網頁翻譯、輸入法、機器輔助翻譯工具等等,貫穿了完整的語言生態。更重要的是,透過語音辨識和機器翻譯的融合,對所有的網頁文本資料、音訊資料、圖片視頻內容資料能夠進行即時分析,挖掘出更大的價值。

目前在智慧語音辨識領域,中譯語通已經擁有了中文、英文的語音辨識,年內將完成俄、日、韓、葡四個語言的語音辨識。

工業大資料應用生態推動產業升級

工業大資料是智慧製造與工業互聯網的基礎與核心,對企業流程化資料的收集、處理、視覺化,有助於解決工業企業實際問題,提升製造智慧水準,推動工業優化、升級、轉型。針對工業大資料部分,目前中譯語通通過與海爾聯合發佈海爾譯見大資料平臺。

(圖為海爾譯見工業大資料平臺)

以全球多資料來源的資訊採集能力,多語種自有機器翻譯的商業情報分析能力,為工業企業提供定制化解決方案,基於線上平臺進行快速的視覺化報表展現服務,為決策提供支援。

半年內兩次融資,總金額近4億元,得到資本認可的中譯語通,優勢在哪?

億萬級語言大資料積累

當演算法趨於一致的時候,那麼競爭的就是資料的規模和品質了。中譯語通繼承了母公司40餘年億萬級高品質語言大資料,成為人工智慧時代無價的資料資產,現在與160多所國內外知名的院校和進行實踐互動的中譯語通,還在不斷地產生著高品質的資料。

全球百萬級網站的即時資料更新

在資料獲取方面,中譯語通資料採擷能力已經覆蓋全球200多個國家,65種語言,超過150多萬獨立功能變數名稱網站進行即時抓取,日更新網頁數據超過3000多萬篇,社交資料3億條。而這些資料都還在高速地增長。

正面PK穀歌的機器翻譯能力

2014年中譯語通開始發力自然語言處理技術,經過兩年多的研發,其機器翻譯技術(統計機器翻譯和神經網路機器翻譯)飛速發展並已經達到世界領先水準,在現有的語種以及諸多垂直領域已經具備了正面PK谷歌翻譯的能力。

現在已經實現32個語種的機器翻譯,約992餘個語言方向,其中中文到外文間的機器翻譯,如中英、中俄、中韓、中西、中葡等十餘個語言的機器翻譯已經達到世界領先水準,並且在垂直領域已經實現規模化的機器翻譯場景化應用。

每天超過1億次的機器翻譯服務請求

語言不應該是人們溝通或獲取資訊的障礙,機器翻譯最大的意義在於擴大了人類認知資訊的深度與廣度現在“譯雲”機器翻譯每天有超過1億次的服務請求,相當於每天要翻譯超過20億字,每年累計超過7200多億字。

為進一步滿足全球用戶的需求,中譯語通會在2017年對機器翻譯進行全面提速,在演算法、高品質資料資源以及語種數量等方面進一步加大研發投入,並在多個垂直領域裡提供更高品質的企業級機器翻譯服務。

以公開資料為基礎的非結構化大資料分析能力

大資料概念企業受到投資機構追捧,大資料理念藍圖創意不斷,但在各行業資料共用的現實面前瞬間破碎,大資料的商業化應用之路被無形拉長,商業變現模式開始倍受質疑。

中譯語通以全球海量的新聞資料、社交資料、網頁數據等公開非結構化資料資源為基礎,提供商業資訊、公共安全、新聞媒體、災害預警、投資決策、技術趨勢和智慧醫療等各個領域的商業應用。據悉,2016年公司實現銷售收入超過2.4億,與阿裡、微軟、海爾、百度等行業巨頭達成業務合作。

面對未來,哪些值得挑戰?

如果說自身優勢是資本對中譯語通認可的內在原因,那麼不斷增長的全球大資料市場規模,則在為中譯語通提供更大的展示舞臺。

跨語言垂直領域的搜索,或許值得挑戰

語言是中譯語通的優勢,每天接受過億次訪問的機器翻譯,海量更新的全球資料,使中譯語通擁有相當體量的使用者規模和資料規模。跨語言的搜索的定位,又進一步放大其自己的優勢,也同時會成為其大資料分析平臺的重要入口。隨著資料資訊的積累和技術的不斷完善,對全球數百萬垂直網站及資料進行採集挖掘的中譯語通會提供一個不錯的多語言垂直搜尋引擎。

非結構化資料的垂直化深耕

目前的中譯語通垂直化大資料產品主要分為公共安全、新聞、金融、廣告四個版塊,很快中譯語通將在今年的7月30日發佈投資、醫療、金融、企業等多領域產品線,為使用者提供熱點剖析、商情分析、公共事件管理等決策支援平臺。

可以大膽去想像下,如果能夠對去掉語言標籤後的文本、語音內容和影像內容的大資料進行交叉比對分析,不僅會是一件有趣的事情,其背後的商業價值也是不言而喻的。

後記:

開篇引用的關於南瓜的故事,來自德國作家于爾克•舒比格,這首詩的名字叫《當世界年紀還小的時候》。如這題目所言,當世界還小的時候,單一語種樣本的大資料分析看起來足以應付。如今面對龐雜的大千世界,跨語言大資料分析的價值則毋庸置疑地迅速凸顯起來。在這個過程中,中國的企業如何乘風破浪迅速發展,讓我們拭目以待。

“對非機構化開放資料的分析,在商業領域能夠爆發巨大的價值。如我們可以通過開放的資料分析,清晰的畫出一項新技術的生命曲線。再如我們可以通過開放的資料給企業清晰地畫像,其全球的評價、產品系列、使用者回饋、競爭對手、新技術研發等等,這將是很有趣的一件事情”訪談中於洋說。

(圖為中譯語通譯見跨語言大資料資訊搜索與分析綜合平臺)

智慧語言科技打破溝通障礙

不是每一個人都有語言天賦,也不是每個人都能掌握多種語言,並在交流中能自如頻道切換。在採訪中我們對此功能進行了現場實測,雙語即時顯示的機器翻譯品質與效率非常高。除此以外,“譯雲”語言科技生態下還有手機端的”找翻譯“ APP、Yeekit網頁翻譯、輸入法、機器輔助翻譯工具等等,貫穿了完整的語言生態。更重要的是,透過語音辨識和機器翻譯的融合,對所有的網頁文本資料、音訊資料、圖片視頻內容資料能夠進行即時分析,挖掘出更大的價值。

目前在智慧語音辨識領域,中譯語通已經擁有了中文、英文的語音辨識,年內將完成俄、日、韓、葡四個語言的語音辨識。

工業大資料應用生態推動產業升級

工業大資料是智慧製造與工業互聯網的基礎與核心,對企業流程化資料的收集、處理、視覺化,有助於解決工業企業實際問題,提升製造智慧水準,推動工業優化、升級、轉型。針對工業大資料部分,目前中譯語通通過與海爾聯合發佈海爾譯見大資料平臺。

(圖為海爾譯見工業大資料平臺)

以全球多資料來源的資訊採集能力,多語種自有機器翻譯的商業情報分析能力,為工業企業提供定制化解決方案,基於線上平臺進行快速的視覺化報表展現服務,為決策提供支援。

半年內兩次融資,總金額近4億元,得到資本認可的中譯語通,優勢在哪?

億萬級語言大資料積累

當演算法趨於一致的時候,那麼競爭的就是資料的規模和品質了。中譯語通繼承了母公司40餘年億萬級高品質語言大資料,成為人工智慧時代無價的資料資產,現在與160多所國內外知名的院校和進行實踐互動的中譯語通,還在不斷地產生著高品質的資料。

全球百萬級網站的即時資料更新

在資料獲取方面,中譯語通資料採擷能力已經覆蓋全球200多個國家,65種語言,超過150多萬獨立功能變數名稱網站進行即時抓取,日更新網頁數據超過3000多萬篇,社交資料3億條。而這些資料都還在高速地增長。

正面PK穀歌的機器翻譯能力

2014年中譯語通開始發力自然語言處理技術,經過兩年多的研發,其機器翻譯技術(統計機器翻譯和神經網路機器翻譯)飛速發展並已經達到世界領先水準,在現有的語種以及諸多垂直領域已經具備了正面PK谷歌翻譯的能力。

現在已經實現32個語種的機器翻譯,約992餘個語言方向,其中中文到外文間的機器翻譯,如中英、中俄、中韓、中西、中葡等十餘個語言的機器翻譯已經達到世界領先水準,並且在垂直領域已經實現規模化的機器翻譯場景化應用。

每天超過1億次的機器翻譯服務請求

語言不應該是人們溝通或獲取資訊的障礙,機器翻譯最大的意義在於擴大了人類認知資訊的深度與廣度現在“譯雲”機器翻譯每天有超過1億次的服務請求,相當於每天要翻譯超過20億字,每年累計超過7200多億字。

為進一步滿足全球用戶的需求,中譯語通會在2017年對機器翻譯進行全面提速,在演算法、高品質資料資源以及語種數量等方面進一步加大研發投入,並在多個垂直領域裡提供更高品質的企業級機器翻譯服務。

以公開資料為基礎的非結構化大資料分析能力

大資料概念企業受到投資機構追捧,大資料理念藍圖創意不斷,但在各行業資料共用的現實面前瞬間破碎,大資料的商業化應用之路被無形拉長,商業變現模式開始倍受質疑。

中譯語通以全球海量的新聞資料、社交資料、網頁數據等公開非結構化資料資源為基礎,提供商業資訊、公共安全、新聞媒體、災害預警、投資決策、技術趨勢和智慧醫療等各個領域的商業應用。據悉,2016年公司實現銷售收入超過2.4億,與阿裡、微軟、海爾、百度等行業巨頭達成業務合作。

面對未來,哪些值得挑戰?

如果說自身優勢是資本對中譯語通認可的內在原因,那麼不斷增長的全球大資料市場規模,則在為中譯語通提供更大的展示舞臺。

跨語言垂直領域的搜索,或許值得挑戰

語言是中譯語通的優勢,每天接受過億次訪問的機器翻譯,海量更新的全球資料,使中譯語通擁有相當體量的使用者規模和資料規模。跨語言的搜索的定位,又進一步放大其自己的優勢,也同時會成為其大資料分析平臺的重要入口。隨著資料資訊的積累和技術的不斷完善,對全球數百萬垂直網站及資料進行採集挖掘的中譯語通會提供一個不錯的多語言垂直搜尋引擎。

非結構化資料的垂直化深耕

目前的中譯語通垂直化大資料產品主要分為公共安全、新聞、金融、廣告四個版塊,很快中譯語通將在今年的7月30日發佈投資、醫療、金融、企業等多領域產品線,為使用者提供熱點剖析、商情分析、公共事件管理等決策支援平臺。

可以大膽去想像下,如果能夠對去掉語言標籤後的文本、語音內容和影像內容的大資料進行交叉比對分析,不僅會是一件有趣的事情,其背後的商業價值也是不言而喻的。

後記:

開篇引用的關於南瓜的故事,來自德國作家于爾克•舒比格,這首詩的名字叫《當世界年紀還小的時候》。如這題目所言,當世界還小的時候,單一語種樣本的大資料分析看起來足以應付。如今面對龐雜的大千世界,跨語言大資料分析的價值則毋庸置疑地迅速凸顯起來。在這個過程中,中國的企業如何乘風破浪迅速發展,讓我們拭目以待。