華文網

聊一聊大資料的問題和缺陷

多虧了大資料和雲計算,可以讓企業使用超級電腦的力量。而人們面臨的問題是用來分析和應用大資料的工具通常有一個致命的缺陷。人們進行的大部分數據分析都是基於錯誤的模型,

這意味著錯誤是不可避免的。當人們誇大的期望超過其能力時,後果可能是可怕的。

如果大資料不是如此巨大,這不會是一個問題。考慮到人們擁有的資料量,有時甚至可以使用有缺陷的模型來產生有用的結果。這裡的問題是人們經常把結果與全知混淆起來。人們對自己的技術非常迷戀,但是當模型出現故障時,它會變得非常難看,尤其是當資料產生的錯誤是相當大的時候。

大資料失敗的例子

也許最大的和最知名的大資料失敗案例是在穀歌公司的2013年流感趨勢。谷歌于2008推出這項服務,目的是預測25個國家的流感疫情。邏輯很簡單:在特定區域分析穀歌關於流感的搜索查詢。下一步是將搜索結果與該地區流感活動的歷史記錄進行比較。

基於這些結果,活動水準被分為低,中,高或極端。

儘管乍一看,這似乎是一個很酷的想法,但實際上並不是這樣。在2013年流感高峰期,穀歌預測的流感的趨勢悲慘地失敗了。事實上,這個數字是驚人的140%。原因是演算法有缺陷,沒有考慮到幾個因素。例如,如果人們搜索“冷”或“發燒”這樣的詞,這並不一定意味著他們正在尋找流感樣症狀。

他們可能一直在尋找季節性的疾病。對於穀歌流感趨勢不幸的是,它無法從這場災難中恢復過來,最終導致了2013年的崩潰。

大資料失敗的原因

穀歌流感趨勢的失敗並不是唯一的災難。人們不可能列出這些年來所有大資料的錯誤,然而,分析失敗是很重要的,因為可以吸取教訓,不要在功能上重複錯誤。大資料失敗的一些原因如下:

(1)缺乏資料管理和資料管理

組織往往不完全瞭解他們已有的資料,

但他們仍然決定在此基礎上開展新的專案。缺乏關於資料處理的文檔、存儲、策略和其他程式。採用大資料諮詢公司的服務是一個好主意,這樣企業就可以為自己提供一個清晰的路線圖和指導,說明如何處理已經擁有的資料,然後才能克服大資料的挑戰。

(2)未定目標和戰略

這裡有很多IT術語和行銷術語,而且在白色雜訊中難以理解。此外,市場上還有很多大資料產品,

選擇合適的產品真的很困難。企業在決定任何事情之前,找出實現目標所需的服務和技術非常重要。“做大資料的小資料”,這意味著企業應該在少量資料上評估其大資料架構,以確保選擇正確的產品。

(3)完全不瞭解

資料科學和大資料是領域知識,數學,統計專業知識和程式設計技能的複雜組合。然而,同時它也必須具有商業意義。通常,IT部門會做出管理層不能理解的變更,反之亦然。為了確保企業瞭解大資料行為對IT和業務領導者都有意義,應該在大資料項目目中構建IT與業務之間的橋樑。業務人員應該深入參與大資料專案的任何階段。

(4)項目太大太快

當企業第一次開始實施大資料項目目時,有很多未定義的因素,比如預算、技術、行動方式等等。當企業很早就開展一個大項目時,那麼註定要失敗。相反,應該選擇一個小項目進行,並衡量成功(或缺乏)增量。這樣如果出現問題,將能夠立即注意到它,並在項目結束之前進行必要的調整。衡量企業的進步的好方法是創建概念的原型或證明來驗證其所完成的工作。如果項目早期存在缺陷,推進項目的下一階段就沒有意義了。

(5)缺乏IT人才

企業找到和雇用所需要的人才來成功完成一個項目是一項艱巨的任務,但處理企業資料的工作人員是整個專案的重要組成部分。而且,他們必須精通新技術,這對於快節奏的IT環境來說是一個挑戰。

從上面的列表中,人們注意到的一個共同的主題是,無論想要關注資料多少,人們總是受到阻礙。即使人們想要資料來決定決策過程,人們最終還是要管理大資料流程程。這包括做出基本決定,例如收集和保存哪些資料,以及從大資料中尋找哪些答案。

通過反覆運算創新

當決定進行大資料項目目時,許多組織感到束手無策,這就是為什麼採用反覆運算方法處理大資料至關重要。組織應該嘗試設法讓員工自由地嘗試資料。事實上,最重要的大資料技術是開源的,這個“開始小,失敗快”的方法得到了加強。而且,很多平臺可以立即以經濟實惠的方式訪問雲服務,從而進一步降低了試用和錯誤的方法。

大資料就是要問正確的問題,所以依靠現有的員工是至關重要的。但是,即使擁有較高的領域知識,組織也不會糾正必要的資料,從一開始就不會提出正確的問題。這種失敗應該被接受和期待。

由於企業的大資料專案的早期階段可以制定或顛覆整個事情,這就是聽從大資料諮詢公司的建議可以獲得真正回報的地方。他們可以為企業建議如何創建概念的原型和驗證,進行基準測試,説明創建微服務架構,並説明企業遷移到新技術。採用靈活的開放式資料基礎設施是非常重要的,這種基礎設施可以讓員工不斷修改和完善他們的方法,直到他們獲得成果。這樣,組織就可以消除恐懼,可以反覆運算有效地利用大資料。

反之亦然。為了確保企業瞭解大資料行為對IT和業務領導者都有意義,應該在大資料項目目中構建IT與業務之間的橋樑。業務人員應該深入參與大資料專案的任何階段。

(4)項目太大太快

當企業第一次開始實施大資料項目目時,有很多未定義的因素,比如預算、技術、行動方式等等。當企業很早就開展一個大項目時,那麼註定要失敗。相反,應該選擇一個小項目進行,並衡量成功(或缺乏)增量。這樣如果出現問題,將能夠立即注意到它,並在項目結束之前進行必要的調整。衡量企業的進步的好方法是創建概念的原型或證明來驗證其所完成的工作。如果項目早期存在缺陷,推進項目的下一階段就沒有意義了。

(5)缺乏IT人才

企業找到和雇用所需要的人才來成功完成一個項目是一項艱巨的任務,但處理企業資料的工作人員是整個專案的重要組成部分。而且,他們必須精通新技術,這對於快節奏的IT環境來說是一個挑戰。

從上面的列表中,人們注意到的一個共同的主題是,無論想要關注資料多少,人們總是受到阻礙。即使人們想要資料來決定決策過程,人們最終還是要管理大資料流程程。這包括做出基本決定,例如收集和保存哪些資料,以及從大資料中尋找哪些答案。

通過反覆運算創新

當決定進行大資料項目目時,許多組織感到束手無策,這就是為什麼採用反覆運算方法處理大資料至關重要。組織應該嘗試設法讓員工自由地嘗試資料。事實上,最重要的大資料技術是開源的,這個“開始小,失敗快”的方法得到了加強。而且,很多平臺可以立即以經濟實惠的方式訪問雲服務,從而進一步降低了試用和錯誤的方法。

大資料就是要問正確的問題,所以依靠現有的員工是至關重要的。但是,即使擁有較高的領域知識,組織也不會糾正必要的資料,從一開始就不會提出正確的問題。這種失敗應該被接受和期待。

由於企業的大資料專案的早期階段可以制定或顛覆整個事情,這就是聽從大資料諮詢公司的建議可以獲得真正回報的地方。他們可以為企業建議如何創建概念的原型和驗證,進行基準測試,説明創建微服務架構,並説明企業遷移到新技術。採用靈活的開放式資料基礎設施是非常重要的,這種基礎設施可以讓員工不斷修改和完善他們的方法,直到他們獲得成果。這樣,組織就可以消除恐懼,可以反覆運算有效地利用大資料。