華文網

大資料創造價值的基礎是XML、雲計算、物聯網

最近幾年,新技術在快速普及,而很多概念在專家還沒有形成統一定義的時候,就快速被大眾關注;大資料概念就是這樣的概念,雖然非常普及,但不同人有不同的理解,這樣在交流中反倒容易引起誤解。

今天想闡述一下大資料的概念

大資料不是傳統的資料技術

我瞭解大資料的概念大概是在2012年,那個時候剛剛參與物聯網的媒體,在物聯網概念之後,大資料概念一直是科技領域、政府部門、企業關注的熱點。但是在那個時候,中國企業通過IT技術利用資料的經驗遠遠落後于先進國家的應用。

技術領先的國家,在大資料概念之前,已經有了豐富的利用資料的經驗,

比如資料採擷技術、BI、ODS等技術在現今國家已經有了非常豐富的案例。而早期利用資料,因為資料獲取成本高,只能是對精選的資料進行處理,這個時候統計學的資料原理、以及分類聚合、尋找關聯性等技術是資料的主要技術。

而中國企業在2012年時,在應用資料方面落後於發達國家,僅有個別行業、個別企業利用了資訊系統的資料創造價值。

而當大資料概念進入中國之後,

很多中國企業分不清楚大資料與傳統資料處理之間的關係,很多人把利用資料的工作都叫做大資料,導致了概念的混淆。甚至一些大學教授,ODS功能叫做大資料是根本錯誤的。

大資料與傳統的資料技術的差別:

1、資料規模大:傳統資料技術主要是利用現有存在關係性資料庫中的資料,

對這些資料進行分析、處理,找到一些關聯,並利用資料關聯性創造價值。這些資料的規模相對較小,可以利用資料庫的分析工具處理。而大資料的資料量非常大,不可能利用資料庫分析工具分析。

2、非結構化資料:傳統資料主要在關係性資料庫中分析,而大資料可以處理圖像、聲音、檔等非結構化資料。

3、處理方式不同:因為資料規模大、非結構化資料這兩方面因素,

導致大資料在分析時不能取全部資料做分析。大資料分析時如何選取資料?這就需要根據一些標籤來抽取資料。所以大資料處理過程中,比傳統資料增加了一個過程Stream。就是在寫入資料的時候,在資料上打一個標籤,之後在利用大資料的時候,根據標籤抽取資料。這個過程就類似於尋找圖書:如果你在你個人書櫃裡,尋找一本書是很容易的,
所以你買了書,可以直接放到書櫃上,不用做任何處理;而如果圖書館買了書,如果不做任何處理的話,你是很難找到一本書的,所以圖書館在新書入庫的時候,首先會對每本書打上標籤,而這個打標籤的過程,就是類似於Stream的工作。

XML技術是大資料Stream的基礎

在探索大資料的技術基礎的時候,很多人都容易忽視XML技術。

XML是eXtensible Markup Language的英文縮寫,將檔加上可以擴展(可以自訂)的標籤的語言。

XML是在2000年左右非常熱門的技術,其快速發展促進了很多技術的進步:html5技術發展,通過SOA技術實現跨平臺功能調用,文檔格式的統一等等。

使用XML標記的XSLT語言,是擴展樣式表轉換語言,可以將XML檔轉化成任何樣式的文本。

隨著XML技術的發展,很多檔都是用XML格式存儲,比如Word文檔等。打上XML標籤的資料可以非常容易的通過XSLT抽取出來。

XML技術可以方便的為資料打上標籤,並能快速通過標籤抽取資料,一方面可以在超越關聯式資料庫範圍之外的更大範圍處理資料;另外可以支援非結構化資料的處理。所以XML技術是大資料發展的最基礎的技術。

雲計算技術為大資料提供高性價比的計算和存儲能力

資料可以創造價值,但大資料處理需要強大的計算和存儲能力。而在早期,這麼強大的計算和存儲能力需要在大型機上實現。大型機價格昂貴,早期可以使用資料創造價值的企業都是非常富有的企業,比如電信運營商、銀行類的企業。

早期國內資料處理能力強的企業都是銀行、電信運營商的供應商。

而雲計算技術的發展,可以讓大量的價格便宜的PC機彙聚起來,形成類似於大型機的計算和存儲能力,而成本又非常低。這個時候資料分析的成本就可以被更多的企業所承擔,從而形成對資料分析需求的一個爆發。

雲計算對計算和存儲能力的可擴展性,對資料的分散式處理方式,促發了大資料概念的誕生。

物聯網為大資料提供豐富的資料來源

早期的資料處理,其資料來源主要是通過手工輸入、在手工輸入資料通過電腦處理之後形成的資料;這樣的資料還是有限的。

而物聯網技術的發展,更多的傳感設備可以自動採集資料,並能夠通過通訊技術、雲計算技術彙聚到一個平臺上,從而極大的豐富了資料來源。

物聯網技術讓資料可以成幾何級數的增長,為大資料提供了豐富的資料來源,從而促發了對資料分析技術的需求,豐富了大資料應用。

而物聯網最終獲得價值,也是通過大資料積累到一定量之後,形成智慧,創造價值的。

未來人工智慧、物聯網、智慧製造創造價值,都離不開大資料的價值。

XML是在2000年左右非常熱門的技術,其快速發展促進了很多技術的進步:html5技術發展,通過SOA技術實現跨平臺功能調用,文檔格式的統一等等。

使用XML標記的XSLT語言,是擴展樣式表轉換語言,可以將XML檔轉化成任何樣式的文本。

隨著XML技術的發展,很多檔都是用XML格式存儲,比如Word文檔等。打上XML標籤的資料可以非常容易的通過XSLT抽取出來。

XML技術可以方便的為資料打上標籤,並能快速通過標籤抽取資料,一方面可以在超越關聯式資料庫範圍之外的更大範圍處理資料;另外可以支援非結構化資料的處理。所以XML技術是大資料發展的最基礎的技術。

雲計算技術為大資料提供高性價比的計算和存儲能力

資料可以創造價值,但大資料處理需要強大的計算和存儲能力。而在早期,這麼強大的計算和存儲能力需要在大型機上實現。大型機價格昂貴,早期可以使用資料創造價值的企業都是非常富有的企業,比如電信運營商、銀行類的企業。

早期國內資料處理能力強的企業都是銀行、電信運營商的供應商。

而雲計算技術的發展,可以讓大量的價格便宜的PC機彙聚起來,形成類似於大型機的計算和存儲能力,而成本又非常低。這個時候資料分析的成本就可以被更多的企業所承擔,從而形成對資料分析需求的一個爆發。

雲計算對計算和存儲能力的可擴展性,對資料的分散式處理方式,促發了大資料概念的誕生。

物聯網為大資料提供豐富的資料來源

早期的資料處理,其資料來源主要是通過手工輸入、在手工輸入資料通過電腦處理之後形成的資料;這樣的資料還是有限的。

而物聯網技術的發展,更多的傳感設備可以自動採集資料,並能夠通過通訊技術、雲計算技術彙聚到一個平臺上,從而極大的豐富了資料來源。

物聯網技術讓資料可以成幾何級數的增長,為大資料提供了豐富的資料來源,從而促發了對資料分析技術的需求,豐富了大資料應用。

而物聯網最終獲得價值,也是通過大資料積累到一定量之後,形成智慧,創造價值的。

未來人工智慧、物聯網、智慧製造創造價值,都離不開大資料的價值。