華文網

「特別報導」20年前就有的大資料,被“雲”炒了熱飯:亞馬遜說,未來人工智慧還會再添一把火

5月20號刊

特別報導

“大資料不是一個新話題, 一些概念20多年前就有,比如資料採擷、BI(商業智慧)、BA(商業分析)等。之所以最近更火了,是因為雲。”現任AWS首席雲計算企業顧問張俠博士說,他十幾年前就撰寫過大資料的文章。“雲既説明產生、收集、存儲更多資料,又説明提供多樣的資料分析處理方法手段。如今人工智慧的興起,

能把資料分析做得更好。”

雲確實為大資料應用帶來變革。

一家在亞馬遜AWS上提供大資料分析服務的企業,此前去投標一個客戶的大資料分析專案,同時參與的有傳統大資料分析公司。招標方在傳統模式和雲服務中各選了一家供應商,並行開展,來對比一下效果。一個半月後,這家雲服務企業已經按照客戶要求,把建模、分析和交付全部做完了。而那家非雲廠商,

為之購買的伺服器還沒有到貨。

“這就是雲服務帶來的變革。”張俠借此來解釋。

不僅如此,雲服務還在產品和服務選型中帶來另一個差異——讓企業選型過程變得簡單便捷。

“很多廠商都會對你說,我有這個功能,我有那個功能。我建議你招呼一聲,你想做什麼事情,會有很多供應商來給你提供方案。使用雲上的工具和服務,你馬上就能開始實驗,也能很快瞭解這些工具的真實深度和廣度。

”雖然用戶也要在學習和瞭解上花費一定時間,但相對傳統模式要簡化透明得多。

AWS首席雲計算企業顧問張俠博士

頻譜的一端

“企業應用大資料雲服務的狀況就像一個‘頻譜’。”張俠說。從頻譜的這一端,是完全沒有使用、將資料資源白白浪費的企業;而頻譜的另一端,

是對大資料利用得非常好,甚至商業模式就建立在大資料基礎之上的企業。

而一些比較極致的客戶,甚至自己在雲計算平臺上創新大資料的工具和服務。Netflix是在亞馬遜雲上提供互聯網視頻流的服務商。“很多亞馬遜雲上的大資料工具最初是Netflix發展提供的,現在被大家廣泛採用”。

Netflix很樂於分享。在國際大資料會議上,人們甚至會經常見到Netflix工程師的身影。

“他們非常自信,為什麼呢?因為當你學會這些時,他們已經開始做更先進更高級的事情了。”

先進客戶在雲上的大資料創新腳步很快。

全新的大資料架構

亞馬遜雲為大資料提供全套產品和服務,覆蓋從資料收集、存儲、處理到使用/視覺化的全流程。

去年,在其“Re:Invent”年度大會上,亞馬遜闡述了基於雲全新的大資料架構,分為十大步驟,推出相關的部分服務。“我們正在研究怎樣提供更全面的工具。對於大資料,我們正在持續努力。”張俠說。

張俠特別強調,大資料整體有兩個新特點:一是對即時資料的分析,一是利用現在和歷史資料進行未來的預測,這都是更高的要求。

針對這樣的新趨勢,亞馬遜也正在提供一些創新服務。其一是Athena,它可以直接在S3上做SQL查詢。“S3本身不是一個結構化資料庫,它存儲的可能是視頻、mp3、 Word文檔和Excel表格。現在,有了Athena,可以馬上使用SQL進行查詢,在以前沒想過的維度上即時查詢”。

另一個是資料湖(Data Lake)服務。在傳統模式下,資料收集上來要逐漸放到一個企業級資料倉庫裡,這要對資料的結構、特徵和顆粒度都很清楚。但現在很多即時資料不斷湧來,存儲在S3上,通過Athena直接查詢,再放到Redshift資料倉庫中。“這個整體就是資料湖概念。它的目的是對即時資料能先進行一個快速分析,幫助快速做出一些決策”。

上個月在三藩市AWS宣佈推出Redshift Spectrum,這是AWS的Redshift託管資料倉庫服務的延伸版,能夠直接查詢駐留AWS S3存儲服務裡面的資料。亞馬遜首席技術官沃納·沃格爾斯(Werner Vogels)在發佈時舉了一個例子:使用Apache Hive開來源資料查詢軟體對艾位元組(EB)資料執行查詢。這項任務需要五年的時間和1000個節點――也就是說,成本相當高昂。沃格爾斯表示,但是借助Redshift Spectrum,只要花155秒和區區幾百美元。

還有兩個創新服務,一個是Batch,是對資料進行批次處理ETL的服務。另一個是Glue,這個詞是英文“膠水”,意思是把資料流程程、資料轉化更好地串在一起。與此同時,亞馬遜雲也針對人工智慧(AI)推出一些工具和服務。

AWS提供的AI服務

在亞馬遜,目前有上千員工致力於人工智慧,涉及發現與搜索、物流配送、發現現有產品、定義新產品類型以及將機器學習引入更多領域。

MXNet是亞馬遜選擇的深度學習框架,已納入Apache孵化項目,也與AWS集成整合,進行了優化。

亞馬遜雲推出了3種人工智慧服務——Polly、Rekognition和Lex。Polly做文本語音轉換——看見一段文字就能念出來。Rekognition做圖像識別和分析。Lex做自然語言理解和自動語音辨識。“我們把這3種服務軟體發展包,任何人都能直接調用,目前很火。”張俠說。

CNBC財經新聞台應用了Lex,如果用戶現在說“請告訴我今天的market update”,CNBC馬上會告訴你今天道鐘斯、納斯達克的表現。福特汽車集成了Lex,甚至高通晶片也集成了Lex,可以想像,未來各種設備應用語音服務的多樣化場景。

利用亞馬遜雲上的AI技術,Howard Hughes公司預測高檔房地產交易,Fraud.net檢測線上付款欺詐,Pinterest開展圖像識別搜索,FINRA進行異常檢測、序列匹配、回歸分析和網路分析,輝瑞製藥開展藥物發現。

張俠認為要用好大資料和人工智慧,業界需要更多的資料科學家——“資料科學家要數理方法、計算程式設計和行業知識三者兼而有之”。

他強調了行業和社會知識。“大資料真正的意義,是從資料中挖掘出價值,進而提供洞察力,為企業創造財富”。為此,當人們使用大資料來時,“他不僅要懂得數理和程式設計,還要瞭解其他相關的知識。行業和社會知識讓你知道該從什麼角度去看資料,進而把資料價值體現出來。如果想成為一個好的資料科學家,應該在這三個維度上去琢磨,這會讓你更能成功”。

作者 | 趙豔秋

關於雲與資料智慧

多的是你不知道的事

掃碼加入交流群 [雲與資料智慧]

就能一起討論相關話題

並且有IT君、IT姐帶你玩兒

對於大資料,我們正在持續努力。”張俠說。

張俠特別強調,大資料整體有兩個新特點:一是對即時資料的分析,一是利用現在和歷史資料進行未來的預測,這都是更高的要求。

針對這樣的新趨勢,亞馬遜也正在提供一些創新服務。其一是Athena,它可以直接在S3上做SQL查詢。“S3本身不是一個結構化資料庫,它存儲的可能是視頻、mp3、 Word文檔和Excel表格。現在,有了Athena,可以馬上使用SQL進行查詢,在以前沒想過的維度上即時查詢”。

另一個是資料湖(Data Lake)服務。在傳統模式下,資料收集上來要逐漸放到一個企業級資料倉庫裡,這要對資料的結構、特徵和顆粒度都很清楚。但現在很多即時資料不斷湧來,存儲在S3上,通過Athena直接查詢,再放到Redshift資料倉庫中。“這個整體就是資料湖概念。它的目的是對即時資料能先進行一個快速分析,幫助快速做出一些決策”。

上個月在三藩市AWS宣佈推出Redshift Spectrum,這是AWS的Redshift託管資料倉庫服務的延伸版,能夠直接查詢駐留AWS S3存儲服務裡面的資料。亞馬遜首席技術官沃納·沃格爾斯(Werner Vogels)在發佈時舉了一個例子:使用Apache Hive開來源資料查詢軟體對艾位元組(EB)資料執行查詢。這項任務需要五年的時間和1000個節點――也就是說,成本相當高昂。沃格爾斯表示,但是借助Redshift Spectrum,只要花155秒和區區幾百美元。

還有兩個創新服務,一個是Batch,是對資料進行批次處理ETL的服務。另一個是Glue,這個詞是英文“膠水”,意思是把資料流程程、資料轉化更好地串在一起。與此同時,亞馬遜雲也針對人工智慧(AI)推出一些工具和服務。

AWS提供的AI服務

在亞馬遜,目前有上千員工致力於人工智慧,涉及發現與搜索、物流配送、發現現有產品、定義新產品類型以及將機器學習引入更多領域。

MXNet是亞馬遜選擇的深度學習框架,已納入Apache孵化項目,也與AWS集成整合,進行了優化。

亞馬遜雲推出了3種人工智慧服務——Polly、Rekognition和Lex。Polly做文本語音轉換——看見一段文字就能念出來。Rekognition做圖像識別和分析。Lex做自然語言理解和自動語音辨識。“我們把這3種服務軟體發展包,任何人都能直接調用,目前很火。”張俠說。

CNBC財經新聞台應用了Lex,如果用戶現在說“請告訴我今天的market update”,CNBC馬上會告訴你今天道鐘斯、納斯達克的表現。福特汽車集成了Lex,甚至高通晶片也集成了Lex,可以想像,未來各種設備應用語音服務的多樣化場景。

利用亞馬遜雲上的AI技術,Howard Hughes公司預測高檔房地產交易,Fraud.net檢測線上付款欺詐,Pinterest開展圖像識別搜索,FINRA進行異常檢測、序列匹配、回歸分析和網路分析,輝瑞製藥開展藥物發現。

張俠認為要用好大資料和人工智慧,業界需要更多的資料科學家——“資料科學家要數理方法、計算程式設計和行業知識三者兼而有之”。

他強調了行業和社會知識。“大資料真正的意義,是從資料中挖掘出價值,進而提供洞察力,為企業創造財富”。為此,當人們使用大資料來時,“他不僅要懂得數理和程式設計,還要瞭解其他相關的知識。行業和社會知識讓你知道該從什麼角度去看資料,進而把資料價值體現出來。如果想成為一個好的資料科學家,應該在這三個維度上去琢磨,這會讓你更能成功”。

作者 | 趙豔秋

關於雲與資料智慧

多的是你不知道的事

掃碼加入交流群 [雲與資料智慧]

就能一起討論相關話題

並且有IT君、IT姐帶你玩兒