您的位置:首頁>正文

“大資料”這詞不火了 是不是因為沒當年說的那麼好

10月19日消息, 國外媒體Slate刊文指出, “大資料(Big Data)”一詞已經變得沒有以往那麼紅火了, 為什麼會這樣呢?“大資料”的問題並不在於資料或者大資料本身很糟糕, 而是在於盲目迷戀資料, 不加批判地使用, 那會引發災難。 資料也不一定完全反映你想要瞭解的事情的實際情況。

以下是文章主要內容:

5年前——2012年2月——《紐約時報》刊文高呼人類的一個新紀元的到來:“大數據時代”。 該文章告訴我們, 社會將開始發生一場革命, 在這場革命中, 海量資料的收集與分析將會改變人們生活的幾乎每一個方面。 資料分析不再局限於電子資料工作表和回歸分析:超級計算的到來,

伴隨著可持續記錄資料並將資料傳送到雲端的聯網感測器的不斷普及, 意味著邁克爾·路易斯(Michael Lewis)2003年的棒球書籍《Moneyball》所描述的那種先進資料分析有望被應用於各行各業, 從商業到學術, 再到醫療和兩性關係。 不僅如此, 高端的資料分析軟體還有助於鑒定完全意想不到的相關性, 比如貸款方用盡額度和他債務違約的可能性之間的關係。 這勢必將會催生會改變我們思考幾乎一切事物的新穎見解。

《紐約時報》並不是第一個得出這一結論的企業機構:它的文章引用了麥肯錫諮詢公司2011年的一份重大報告, 其觀點也得到了2012年瑞士達沃斯世界經濟論壇題為“大資料, 大影響”的官方報告的支持。

但這種宣言仿佛就是標誌大資料時代開啟的里程碑。 在之後的一個月裡, 巴拉克·奧巴馬(Barack Obama)的白宮成了一個2億美元的國家大資料項目目, 瘋狂熱潮隨即襲來:學術機構、非盈利組織、政府和企業都爭相去探究“大資料”究竟是什麼, 他們可以如何好好利用它。

事實證明, 這種瘋狂沒有持續很長時間。 5年後, 資料在我們的日常生活中扮演重要很多的角色, 但大資料一詞已經不再流行——甚至讓人覺得有些討厭。 我們被允諾的那場革命究竟發生了什麼呢?資料、分析技術和演算法現在又在往什麼方向發展呢?這些問題值得回頭去思考。

科技諮詢公司Gartner在它2015年相當有名的“技術成熟度曲線”報告中不再使用“大資料”一次,

之後該詞再也沒有回歸。 該公司澄清道, 這並不是因為企業放棄挖掘巨量資料集獲得洞見的概念。 而是因為那種做法已經變得廣為流行, 以至於它不再符合“新興技術”的定義。 大資料説明驅動我們的動態消息、Netflix視頻推薦、自動化股票交易、自動校正功能、健康跟蹤設備等不計其數的工具背後的演算法。 但我們現在不大使用大資料一詞了——我們只是將它稱作資料。 我們開始將資料集能夠包含無數的觀察結果, 先進軟體能夠檢測當中的趨勢當做理所當然的事情。

大資料引發的嚴重錯誤

雖然該詞仍有被使用, 但它更多地帶有一種不好的意味, 比如凱茜·奧尼爾(Cathy O’Neil)2016年的著作《數學殺傷性武器》(Weapons of Math Destruction)或者弗蘭克·帕斯誇裡(Frank Pasquale)2015年的《黑箱社會》(The Black Box Society)。

匆忙執行和應用大資料, 即進行所謂的“資料驅動型決策”, 帶來了嚴重的錯誤。

有的錯誤相當惹人注目:塔吉特(Target)曾向一位沒跟任何人說過自己懷孕的少女的家庭派送嬰兒用品優惠券;Pinterest曾恭喜一位單身女性即將結婚;穀歌照片(Google Photos)也曾引發軒然大波, 該公司被大肆吹捧的AI將黑人誤以為是大猩猩, 原因是它的訓練資料不夠多元化。 (值得指出的是, 至少在該事件中, “大資料”還不夠大。 )

其它的錯誤更為微妙, 或許也更加陰險。 當中包括奧尼爾在她的重要著作中記錄的那些不透明的資料驅動式制度性模型:被法庭用來判決罪犯的、帶有種族偏見的累犯模型, 或者那些基於可疑的測驗分數資料解雇備受愛戴的教師的模型。

大資料出錯的新案例可謂層出不窮——比如Facebook演算法明顯説明俄羅斯通過針對性的假新聞影響美國總統大選的結果。

盲目迷戀資料與誤用

“大資料”的問題並不在於資料本身很糟糕, 也不在於大資料本身很糟糕:謹慎應用的話, 大型資料集還是能夠揭示其它途徑發現不了的重要趨勢。 正如茱莉婭·羅斯·韋斯特(Julia Rose West)在最近給Slate撰寫的文章裡所說的, 盲目迷戀資料, 不加批判地使用, 往往導致災難的發生。

從本質來看, 大資料不容易解讀。 當你收集數十億個資料點的時候——一個網站上的點擊或者游標位置資料;大型公共空間十字轉門的轉動次數;對世界各地每個小時的風速觀察;推文——任何給定的資料點的來源會變得模糊。 這反過來意味著,看似高級別的趨勢可能只是資料問題或者方法造成的產物。但也許更重大的問題是,你所擁有的資料通常只是你真正想要知道的東西的一個指標。大資料不能解決那個問題——它反而放大了那個問題。

例如,民意調查被廣泛用作衡量人們在選舉中的投票意向的指標。然而,從湯姆·布蘭得利(Tom Bradley)1982年在加州州長競選中敗北,到英國脫歐公投,再到特朗普的當選,數十年來結果出乎意料的選舉一再提醒我們,民意測驗和人們實際的投票意向之間並不總是完全一致。Facebook以往主要通過用戶有沒有點贊來估量他們對特定的帖子是否有興趣。但隨著經過演算法優化的動態資訊開始大量出現標題誘餌、點贊誘餌和嬰兒照片——導致用戶滿意度明顯下降——該公司的高層逐漸意識到,“點贊”這事並不一定意味著使用者真的喜歡特定的內容。

指標和你實際上要估量的東西之間的差別越大,過於倚重它就越危險。以來自奧尼爾的著作的前述例子為例:學區使用數學模型來讓教師的表現評估與學生的測驗分數掛鉤。學生測驗分數與不在教師控制範圍內的無數重要因素有關。大資料的其中一個優勢在於,即便是在非常嘈雜的資料集裡,你也可以發現有意義的關聯性,這主要得益於資料量大以及理論上能夠控制混雜變數的強大軟體演算法。例如,奧尼爾描述的那個模型,利用來自多個學區和體系的學生的眾多人口結構方面的相關性,來生成測驗分數的“預期”資料集,再拿它們與學生的實際成績進行比較。(由於這個原因,奧尼爾認為它是“大資料”例子,儘管那個資料集並不夠大,沒達到該詞的一些技術定義的門檻。)

試想一下,這樣的系統被應用在同一所學校裡面——拿每個年級的教師與其它年級的教師比較。要不是大資料的魔法,學生特定學年異常的測驗分數會非常惹眼。任何評估那些測驗的聰明人,都不會認為它們能夠很好地反映學生的能力,更不用說教他們的老師了。

而前華盛頓特區教育局長李洋姬(Michelle Rhee)實行的系統相比之下更不透明。因為資料集比較大,而不是小,它必須要由協力廠商的諮詢公司利用專門的數學模型來進行分析解讀。這可帶來一種客觀性,但它也排除掉了嚴密質問任何給定的資訊輸出,來看看該模型具體如何得出它的結論的可能性。

例如,奧尼爾分析道,有的教師得到低評分,可能不是因為他們的學生表現糟糕,而是因為那些學生之前一年表現得出奇地好——可能因為下面那個年級的教師謊稱那些學生表現很好,以提升他自己的教學評分。但對於那種可能性,學校高層並沒什麼興趣去深究那種模型的機制來予以證實。

加入更多指標

並不是說學生測驗分數、民意調查、內容排名演算法或者累犯預測模型統統都需要忽視。除了停用資料和回歸到奇聞軼事和直覺判斷以外,至少有兩種可行的方法來處理資料集和你想要估量或者預計的現實世界結果之間不完全相關帶來的問題。

其中一種方法是加入更多的指標資料。Facebook採用這種做法已有很長一段時間。在瞭解到用戶點贊不能完全反映他們在動態消息當中實際想要看到的東西以後,該公司給它的模型加入了更多的指標。它開始測量其它的東西,比如用戶看一篇帖子的時長,他們流覽其點擊的文章的時間,他們是在看內容之前還是之後點贊。Facebook的工程師盡可能地去權衡和優化那些指標,但他們發現使用者大體上還是對動態消息裡呈現的內容不滿意。因此,該公司進一步增加測量指標:它開始展開大範圍的用戶調查,增加新的反應表情讓用戶可以傳達更加細微的感受,並開始利用AI來按頁面和按出版者檢測帖子的標題黨語言。該社交網路知道這些指標沒有一個是完美的。但是,通過增加更多的指標,它理論上能夠更加接近于形成可給用戶展示他們最想要看到的帖子的演算法。

這種做法的一個弊端在於,它難度大,成本高昂。另一個弊端在於,你的模型加入的變數越多,它的方法就會變得越錯綜複雜,越不透明,越難以理解。這是帕斯誇裡在《黑箱社會》裡闡述的問題的一部分。演算法再先進,所利用的資料集再好,它也有可能會出錯——而它出錯的時候,診斷問題幾無可能。“過度擬合”和盲目相信也會帶來危險:你的模型越先進,它看上去與你過往所有的觀察越吻合,你對它越有信心,它最終讓你一敗塗地的危險就越大。(想想次貸危機、選舉預測模型和Zynga吧。)

小資料

對於源自大資料集偏見的問題,另一個潛在的應對方法是部分人所說的“小資料”。小資料是指,資料集足夠簡單到可以直接由人來分析和解讀,不需要求助於超級電腦或者Hadoop作業。跟“慢餐”一樣,該詞也是因為其相反面的流行而產生。

丹麥作家、行銷顧問馬丁·林德斯特羅姆(Martin Lindstrom)在他2016年的著作《小數據:揭示大趨勢的微小線索》中談到了那種做法。例如,丹麥知名玩具廠商樂高(Lego)依據大量聲稱千禧一代需要即時滿足,更容易被比較輕鬆的項目吸引的研究,轉向提供更大的積木,還在1990年代末和2000年代初打造主題公園和視頻遊戲。這種轉型沒有奏效。

那種由資料驅動的範式最後被它的行銷者2004年進行的一項範圍小得多的人類學調查顛覆。它的行銷者逐個詢問小孩他們最珍愛什麼物品,發現他們最喜歡也最忠於可讓顯示出其苦苦練就的能力的產品——比如一雙因數百個小時的滑板練習而磨損的舊運動鞋。據林德斯特羅姆(他曾擔當樂高的顧問,自己也很喜歡玩樂高積木)說,樂高重新專注于提供它原來的小積木,由此實現復興。

這說明,貝索斯不僅僅理解大資料提升各個系統運行效率的威力,還知道大資料也要可能會掩蓋沒有得到有效估量的特定問題的發生原因和機制。在根據你知道該如何測量的事情做出決策的時候,安全的做法是確保也有機制讓你能夠知道你不知道該如何估量的事情。“問題總是,你沒有收集什麼資料?”奧尼爾在接受電話採訪時表示,“什麼資料是你看不到的?”

未來展望

隨著“大資料”不再被當做熱詞,我們有希望逐漸對資料的威力和陷阱形成更加細緻入微的理解。回頭來看,收集資料的感測器和分析資料的超級電腦一下子大量湧現,引發一股淘金熱,以及很多時候錯失這一切的恐懼會壓過你的審慎情緒,都是可以理解的。與此同時,必然會有深思熟慮的人開始引起我們對這些情況的注意,大資料也不可避免地會帶來反效果。

不過,大資料誤用帶來的威脅,不會僅僅因為我們不再用敬畏的口吻來說那個詞而消失。看看Gartner 2017年技術成熟度曲線的頂峰,你會看到像機器學習和深度學習這樣的詞,以及代表這些計算技術的現實應用的無人駕駛汽車、虛擬助手等相關的詞。這些是基於與大資料一樣的基礎的新“棚架層”,它們全都依賴於大資料。它們已經走在通向真正的突破的道路上——但可以肯定的是,它們也會導致嚴重的錯誤。

您可能也感興趣:

明年全球科技支出將達到3萬億美元 中印等國表現強勁

專為國人定制!廉價版蘋果iPhone X曝光:或改用LCD屏

穀歌AI投資取得回報:發現83% YouTube極端視頻

這反過來意味著,看似高級別的趨勢可能只是資料問題或者方法造成的產物。但也許更重大的問題是,你所擁有的資料通常只是你真正想要知道的東西的一個指標。大資料不能解決那個問題——它反而放大了那個問題。

例如,民意調查被廣泛用作衡量人們在選舉中的投票意向的指標。然而,從湯姆·布蘭得利(Tom Bradley)1982年在加州州長競選中敗北,到英國脫歐公投,再到特朗普的當選,數十年來結果出乎意料的選舉一再提醒我們,民意測驗和人們實際的投票意向之間並不總是完全一致。Facebook以往主要通過用戶有沒有點贊來估量他們對特定的帖子是否有興趣。但隨著經過演算法優化的動態資訊開始大量出現標題誘餌、點贊誘餌和嬰兒照片——導致用戶滿意度明顯下降——該公司的高層逐漸意識到,“點贊”這事並不一定意味著使用者真的喜歡特定的內容。

指標和你實際上要估量的東西之間的差別越大,過於倚重它就越危險。以來自奧尼爾的著作的前述例子為例:學區使用數學模型來讓教師的表現評估與學生的測驗分數掛鉤。學生測驗分數與不在教師控制範圍內的無數重要因素有關。大資料的其中一個優勢在於,即便是在非常嘈雜的資料集裡,你也可以發現有意義的關聯性,這主要得益於資料量大以及理論上能夠控制混雜變數的強大軟體演算法。例如,奧尼爾描述的那個模型,利用來自多個學區和體系的學生的眾多人口結構方面的相關性,來生成測驗分數的“預期”資料集,再拿它們與學生的實際成績進行比較。(由於這個原因,奧尼爾認為它是“大資料”例子,儘管那個資料集並不夠大,沒達到該詞的一些技術定義的門檻。)

試想一下,這樣的系統被應用在同一所學校裡面——拿每個年級的教師與其它年級的教師比較。要不是大資料的魔法,學生特定學年異常的測驗分數會非常惹眼。任何評估那些測驗的聰明人,都不會認為它們能夠很好地反映學生的能力,更不用說教他們的老師了。

而前華盛頓特區教育局長李洋姬(Michelle Rhee)實行的系統相比之下更不透明。因為資料集比較大,而不是小,它必須要由協力廠商的諮詢公司利用專門的數學模型來進行分析解讀。這可帶來一種客觀性,但它也排除掉了嚴密質問任何給定的資訊輸出,來看看該模型具體如何得出它的結論的可能性。

例如,奧尼爾分析道,有的教師得到低評分,可能不是因為他們的學生表現糟糕,而是因為那些學生之前一年表現得出奇地好——可能因為下面那個年級的教師謊稱那些學生表現很好,以提升他自己的教學評分。但對於那種可能性,學校高層並沒什麼興趣去深究那種模型的機制來予以證實。

加入更多指標

並不是說學生測驗分數、民意調查、內容排名演算法或者累犯預測模型統統都需要忽視。除了停用資料和回歸到奇聞軼事和直覺判斷以外,至少有兩種可行的方法來處理資料集和你想要估量或者預計的現實世界結果之間不完全相關帶來的問題。

其中一種方法是加入更多的指標資料。Facebook採用這種做法已有很長一段時間。在瞭解到用戶點贊不能完全反映他們在動態消息當中實際想要看到的東西以後,該公司給它的模型加入了更多的指標。它開始測量其它的東西,比如用戶看一篇帖子的時長,他們流覽其點擊的文章的時間,他們是在看內容之前還是之後點贊。Facebook的工程師盡可能地去權衡和優化那些指標,但他們發現使用者大體上還是對動態消息裡呈現的內容不滿意。因此,該公司進一步增加測量指標:它開始展開大範圍的用戶調查,增加新的反應表情讓用戶可以傳達更加細微的感受,並開始利用AI來按頁面和按出版者檢測帖子的標題黨語言。該社交網路知道這些指標沒有一個是完美的。但是,通過增加更多的指標,它理論上能夠更加接近于形成可給用戶展示他們最想要看到的帖子的演算法。

這種做法的一個弊端在於,它難度大,成本高昂。另一個弊端在於,你的模型加入的變數越多,它的方法就會變得越錯綜複雜,越不透明,越難以理解。這是帕斯誇裡在《黑箱社會》裡闡述的問題的一部分。演算法再先進,所利用的資料集再好,它也有可能會出錯——而它出錯的時候,診斷問題幾無可能。“過度擬合”和盲目相信也會帶來危險:你的模型越先進,它看上去與你過往所有的觀察越吻合,你對它越有信心,它最終讓你一敗塗地的危險就越大。(想想次貸危機、選舉預測模型和Zynga吧。)

小資料

對於源自大資料集偏見的問題,另一個潛在的應對方法是部分人所說的“小資料”。小資料是指,資料集足夠簡單到可以直接由人來分析和解讀,不需要求助於超級電腦或者Hadoop作業。跟“慢餐”一樣,該詞也是因為其相反面的流行而產生。

丹麥作家、行銷顧問馬丁·林德斯特羅姆(Martin Lindstrom)在他2016年的著作《小數據:揭示大趨勢的微小線索》中談到了那種做法。例如,丹麥知名玩具廠商樂高(Lego)依據大量聲稱千禧一代需要即時滿足,更容易被比較輕鬆的項目吸引的研究,轉向提供更大的積木,還在1990年代末和2000年代初打造主題公園和視頻遊戲。這種轉型沒有奏效。

那種由資料驅動的範式最後被它的行銷者2004年進行的一項範圍小得多的人類學調查顛覆。它的行銷者逐個詢問小孩他們最珍愛什麼物品,發現他們最喜歡也最忠於可讓顯示出其苦苦練就的能力的產品——比如一雙因數百個小時的滑板練習而磨損的舊運動鞋。據林德斯特羅姆(他曾擔當樂高的顧問,自己也很喜歡玩樂高積木)說,樂高重新專注于提供它原來的小積木,由此實現復興。

這說明,貝索斯不僅僅理解大資料提升各個系統運行效率的威力,還知道大資料也要可能會掩蓋沒有得到有效估量的特定問題的發生原因和機制。在根據你知道該如何測量的事情做出決策的時候,安全的做法是確保也有機制讓你能夠知道你不知道該如何估量的事情。“問題總是,你沒有收集什麼資料?”奧尼爾在接受電話採訪時表示,“什麼資料是你看不到的?”

未來展望

隨著“大資料”不再被當做熱詞,我們有希望逐漸對資料的威力和陷阱形成更加細緻入微的理解。回頭來看,收集資料的感測器和分析資料的超級電腦一下子大量湧現,引發一股淘金熱,以及很多時候錯失這一切的恐懼會壓過你的審慎情緒,都是可以理解的。與此同時,必然會有深思熟慮的人開始引起我們對這些情況的注意,大資料也不可避免地會帶來反效果。

不過,大資料誤用帶來的威脅,不會僅僅因為我們不再用敬畏的口吻來說那個詞而消失。看看Gartner 2017年技術成熟度曲線的頂峰,你會看到像機器學習和深度學習這樣的詞,以及代表這些計算技術的現實應用的無人駕駛汽車、虛擬助手等相關的詞。這些是基於與大資料一樣的基礎的新“棚架層”,它們全都依賴於大資料。它們已經走在通向真正的突破的道路上——但可以肯定的是,它們也會導致嚴重的錯誤。

您可能也感興趣:

明年全球科技支出將達到3萬億美元 中印等國表現強勁

專為國人定制!廉價版蘋果iPhone X曝光:或改用LCD屏

穀歌AI投資取得回報:發現83% YouTube極端視頻

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示