“大資料”在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業早已存在, 卻因為近年來互聯網和資訊行業的發展而引起人們關注。 大資料已成為作為雲計算、物聯網之後 IT 行業又一大顛覆性的技術革命。
大資料時代
大資料的應用和技術在互聯網, 起點可追溯到2000年前後。 當時互聯網網頁爆發式增長, 每天新增約700萬個網頁, 到 2000 年底全球網頁數達到40億, 使用者檢索資訊越來越不方便。 谷歌等公司率先建立了覆蓋數十億網頁的索引庫, 開始提供較為精確的搜索服務, 大大提升了人們使用互聯網的效率, 這是大資料應用的起點。 當時搜尋引擎要存儲和處理的資料, 不僅數量之大前所未有, 而且以非結構化資料為主, 傳統技術無法應對。 為此, 穀歌提出了一套以分散式為特徵的全新技術體系, 即後來陸續公開的分散式檔案系統(GFS,
大資料的三個特徵
伴隨著互聯網產業的崛起, 這種創新的海量資料處理技術在電子商務、定向廣告、智慧推薦、社交網路等方面得到應用,
最早提出“大資料”時代到來的是全球知名諮詢公司麥肯錫, 麥肯錫稱:“資料, 已經滲透到當今每一個行業和業務職能領域, 成為重要的生產因素。 人們對於海量資料的挖掘和運用, 預示著新一波生產率增長和消費者盈餘浪潮的到來。 在 2012 年瑞士達沃斯舉行的世界經濟論壇上, 大資料是框定的主題之一。
麥肯錫、世界經濟論壇等知名機構在2011年對這種資料驅動的創新進行了研究總結, 隨即在全世界興起了一股大資料熱潮。
二:大資料的特徵大資料技術是一種新一代技術和構架, 它以較低的成本、快速的採集、處理和分析技術, 從各種超大規模的資料中提取價值資料, 以IOC體系(OracleIBM EMC)為核心物傳統資料計算存儲和讀寫方式越來越不能滿足目前互聯網和物聯網發展帶來海量資料分析的需求, 而Hadoop被認為是適應未來大資料應用的全新架構體系, 同時Hadoop也成為大資料的代名詞。
理想的大資料架構
2005年Hadoop項目誕生, Hadoop其最初作為雅虎公司為解決網頁搜索問題的項目之一, 後來因其技術的高效性, 被Apache Software Foundation 公司引入並成為開源應用。 Hadoop本身不是一個產品, 而是由多個軟體產品組成的一個生態系統, 這些軟體產品共同實現全面功能和靈活的大資料分析。
Hortonworks與Cloudera和MapR三家被看做是大資料技術市場的領頭羊, 三家都圍繞Hadoop框架進行產品開發。
三:大資料受益產業鏈及公司大資料時代的超大資料體量和超過80%比例非結構化資料的存在,已經超越了傳統資料庫的管理能力,大資料技術將是IT領域新一代的技術與架構,它將幫助人們從大體量,高複雜的資料中提取價值。大資料時代的來臨為諸多轉型企業提供了一個難得的彎道超車機會,如果能夠基於Hadoop 成功開發出一款高品質資料分析產品,它將在大資料時代迅速搶得先機,目前多部委聯合行動促進政務大資料應用,政府推動政務大資料發展,將從資料開放著手, 梳理大資料受益產業鏈及公司
各個大資料關鍵技術在大資料處理生命週期的位置
3.1 資料來源受益公司
資料仲介是關鍵環節。大資料分析的重要意義在於資料資源的外部性,即把資料交付給最能產生價值的應用企業,這其中伴隨資料仲介的誕生,資料仲介的本質在於實現資料供需的對接,為所有者找到資料資產價值變現的出口,以及使需求方獲得自身業務發展所需的數位資源。資料資產類型各資料仲介需要做的工作包括資料清洗、格式化以及必要的應用場景開發,即把原始資料經過處理變成資料資產。資料仲介的這一環節是整個資料來源產業提取和挖掘高價值資料的前提,同時也是大資料技術發展和應用開拓的核心驅動力。
資料仲介是資料資產的關鍵環節
3.2 基礎設施公司
基礎設施公司主要提供大資料的存儲、管理以及服務,為後續的分析和挖掘提供基礎。大資料的發展離不開雲計算的海量存儲和運算能力,我國在基礎設施領域的整體實力仍然比較薄弱,這一領域內的技術基本由國外公司主導,代表公司為 Cloudera。創建于2008 年,利用 Hadoop 這一開源技術説明公司構建大資料平臺,為企業等組織型客戶提供大資料服務的基礎,也做解決方案諮詢和認證培訓。
在 Hadoop 生態領域,Cloudera 是規模最大、知名度高的企業,也當前資料領域強有力解決方案服務商之一。 Hadoop 快速佔據主流市場並成為企業數中心的核,這要求需具備靈活的部署模型、高安全性強大管理系統以及敏捷開發工具才能得實現。 Cloudera 的創始團隊包括前穀歌、 Facebook、Yahoo 以及 Oracle 的員工和高級程師。使用整套系統的客戶包括迪士尼、AOL 以及摩根士丹利等。
3.3 資料分析公司
資料分析工具的產品屬性較強, 所以擁有技術優勢的企業更容易勝出。資料分析子領域眾多,國外的技術分析公司並沒有追求多點開花,而基本都選擇了深耕技術,為客戶專業的分析工具。以全球估值最高的大資料初創企業 Palantir 為例,其客戶主要為政府,在解決安防、反恐等問題上貢獻卓著,公司最顯著的特點是全部為研發人員,沒有一名銷售人員,公司是矽谷極客公司的典型代表。
Splunk 是大資料處理領域第一家上市公司,公司成立於 2003 年,於 2012 年 4 月 19 日在納斯達克成功上市,並在首個交易日以 109%的漲幅撐開了人們對大資料的想像空間。作為一家商業智慧軟體提供商,其軟體平臺可以即時對任何 APP、伺服器或者網路平臺的機器資料進行索引、監控和分析,並將結果生產圖形化報表,在此基礎上説明客戶避免服務性能降低或中斷。
3.4 資料應用公司
相比國外公司在基礎設施和分析領域的技術和先發優勢,我國公司在大資料領域更有可能在資料應用的領域有所突破。強烈建議關注擁有核心軟體技術開發能力,具備較強轉型意願企業的投資機會。
三家都圍繞Hadoop框架進行產品開發。三:大資料受益產業鏈及公司大資料時代的超大資料體量和超過80%比例非結構化資料的存在,已經超越了傳統資料庫的管理能力,大資料技術將是IT領域新一代的技術與架構,它將幫助人們從大體量,高複雜的資料中提取價值。大資料時代的來臨為諸多轉型企業提供了一個難得的彎道超車機會,如果能夠基於Hadoop 成功開發出一款高品質資料分析產品,它將在大資料時代迅速搶得先機,目前多部委聯合行動促進政務大資料應用,政府推動政務大資料發展,將從資料開放著手, 梳理大資料受益產業鏈及公司
各個大資料關鍵技術在大資料處理生命週期的位置
3.1 資料來源受益公司
資料仲介是關鍵環節。大資料分析的重要意義在於資料資源的外部性,即把資料交付給最能產生價值的應用企業,這其中伴隨資料仲介的誕生,資料仲介的本質在於實現資料供需的對接,為所有者找到資料資產價值變現的出口,以及使需求方獲得自身業務發展所需的數位資源。資料資產類型各資料仲介需要做的工作包括資料清洗、格式化以及必要的應用場景開發,即把原始資料經過處理變成資料資產。資料仲介的這一環節是整個資料來源產業提取和挖掘高價值資料的前提,同時也是大資料技術發展和應用開拓的核心驅動力。
資料仲介是資料資產的關鍵環節
3.2 基礎設施公司
基礎設施公司主要提供大資料的存儲、管理以及服務,為後續的分析和挖掘提供基礎。大資料的發展離不開雲計算的海量存儲和運算能力,我國在基礎設施領域的整體實力仍然比較薄弱,這一領域內的技術基本由國外公司主導,代表公司為 Cloudera。創建于2008 年,利用 Hadoop 這一開源技術説明公司構建大資料平臺,為企業等組織型客戶提供大資料服務的基礎,也做解決方案諮詢和認證培訓。
在 Hadoop 生態領域,Cloudera 是規模最大、知名度高的企業,也當前資料領域強有力解決方案服務商之一。 Hadoop 快速佔據主流市場並成為企業數中心的核,這要求需具備靈活的部署模型、高安全性強大管理系統以及敏捷開發工具才能得實現。 Cloudera 的創始團隊包括前穀歌、 Facebook、Yahoo 以及 Oracle 的員工和高級程師。使用整套系統的客戶包括迪士尼、AOL 以及摩根士丹利等。
3.3 資料分析公司
資料分析工具的產品屬性較強, 所以擁有技術優勢的企業更容易勝出。資料分析子領域眾多,國外的技術分析公司並沒有追求多點開花,而基本都選擇了深耕技術,為客戶專業的分析工具。以全球估值最高的大資料初創企業 Palantir 為例,其客戶主要為政府,在解決安防、反恐等問題上貢獻卓著,公司最顯著的特點是全部為研發人員,沒有一名銷售人員,公司是矽谷極客公司的典型代表。
Splunk 是大資料處理領域第一家上市公司,公司成立於 2003 年,於 2012 年 4 月 19 日在納斯達克成功上市,並在首個交易日以 109%的漲幅撐開了人們對大資料的想像空間。作為一家商業智慧軟體提供商,其軟體平臺可以即時對任何 APP、伺服器或者網路平臺的機器資料進行索引、監控和分析,並將結果生產圖形化報表,在此基礎上説明客戶避免服務性能降低或中斷。
3.4 資料應用公司
相比國外公司在基礎設施和分析領域的技術和先發優勢,我國公司在大資料領域更有可能在資料應用的領域有所突破。強烈建議關注擁有核心軟體技術開發能力,具備較強轉型意願企業的投資機會。