您的位置:首頁>科技>正文

《大數據》精華連載2:大資料概念與應用

大資料的出現開啟了大規模生產、分享和應用資料的時代, 能讓我們通過對海量資料進行分析, 以一種前所未有的方式獲得全新的產品、服務或獨到的見解,

最終形成變革之力, 實現重大的時代轉型。 這就好比當我們感受浩瀚無垠的宇宙時, 用望遠鏡只能看到宇宙的冰山一角, 但更廣闊的區域都在表面之後, 等待著進一步的探索。 雲計算正是大資料探索過程中的動力源泉, 通過對大資料進行檢索、分析、挖掘、研判, 可以使得決策更為精准, 釋放出資料背後隱藏的價值。 大資料正在改變我們的生活及理解世界的方式, 正在成為新發明和新服務的源泉, 而更多的改變正蓄勢待發……

1.1 大資料之“大”

英特爾創始人戈登·摩爾(Gordon Moore)在1965年提出了著名的“摩爾定律”, 即當價格不變時, 積體電路上可容納的電晶體數目, 約每隔18個月便會增加一倍, 性能也將提升一倍。

1998年圖靈獎獲得者傑姆·格雷(Jim Gray)提出著名的“新摩爾定律”, 即人類有史以來的資料總量, 每過18個月就會翻一番[1]。

從圖1-1中可以看出, 2004年, 全球資料總量是30EB[2](1EB=1018B=1024PB);2005年達到了50EB, 2006年達到了161EB;到2015年, 達到了驚人的7900EB;到2020年, 預計將達到35000EB。

圖1-1 全球資料總量[1]

大資料到底有多大?下面列舉出一組互聯網資料展示給大家。

(1)互聯網每天產生的全部內容可以刻滿6.4億張DVD。

(2)Google每天需要處理24PB的資料。

(3)線民每天在Facebook上要花費234億分鐘, 被移動互聯網使用者發送和接收的資料高達44PB。

(4)全球每秒發送290萬封電子郵件, 一分鐘讀一篇的話, 足夠一個人晝夜不停地讀5.5年。

(5)每天會有2.88萬個小時的視頻上傳到YouTube, 足夠一個人晝夜不停地觀看3.3年。

(6)Twitter上每天發佈5000萬條消息, 假設10秒流覽一條消息,

足夠一個人晝夜不停地流覽16年。

也就是說, 隨著人類活動的進一步擴展, 資料規模會急劇膨脹, 包括金融、汽車、零售、餐飲、電信、能源、政務、醫療、體育、娛樂等在內的各行業累積的資料量越來越大, 資料類型也越來越多、越來越複雜, 已經超越了傳統資料管理系統、處理模式的能力範圍, 於是“大資料”這樣一個在含義上趨近於“無窮大”的概念才會應運而生[3]。

那麼, 何為大數據?大資料又稱巨量資料, 指的是無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合, 是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊資產。

大資料已經滲透到每一個行業和業務職能領域,

並成為重要的生產因素。 目前工業界普遍認為大資料具有5V+1C的特徵:大量(Volume)、多樣(Variety)、高速(Velocity)、價值(Value)、準確性(Veracity)和複雜(Complexity)[3]。

(1)大量(Volume):存儲的資料量巨大, PB級別是常態, 因而, 對其分析的計算量也大。

(2)多樣(Variety):資料的來源及格式多樣, 資料格式除了傳統的格式化資料外, 還包括半結構化或非結構化資料, 如使用者上傳的音訊和視頻內容。 隨著人類活動的進一步拓寬, 資料的來源更加多樣。

(3)高速(Velocity):資料增長速度快, 同時要求對資料的處理速度也要快, 以便能夠從資料中及時地提取知識, 發現價值。

(4)價值(Value):需要對大量的資料處理, 挖掘其潛在的價值, 因而, 大資料對我們提出的明確要求是設計一種在成本可接受的條件下, 通過快速採集、發現和分析從大量、多種類別的資料中提取價值的體系架構。

(5)準確性(Veracity):即處理的結果要保證一定的準確性。

(6)複雜(Complexity):對資料的處理和分析的難度大。

從大資料的特徵可以看出3個層次的內容。 ①海量的數據。 資料獲取和使用者使用需求呈指數級增長, 數量極其龐大。 ②資料複雜度高。 其非結構化特徵非常明顯, 傳統的資料處理方式無法來處理。 ③處理時效與分析得到的結果的可用性。 資料海量加之結構複雜, 對分析處理的技術要求相當高, 資料的及時處理難度相當大;同時, 從大資料中提取出來的規律或結果必須是真實的、有價值的、可用的。 可見, 大資料問題涉及從存儲、轉換、傳輸直到分析的每一個層面, 運用傳統的資料處理工具和技術無法滿足即時處理大資料的需求。

精彩回顧:

《大資料》精華連載(1)點擊下方“閱讀原文”瞭解《雲計算(第三版)》

↓↓↓

精彩回顧:

《大資料》精華連載(1)點擊下方“閱讀原文”瞭解《雲計算(第三版)》

↓↓↓

Next Article
喜欢就按个赞吧!!!
点击关闭提示