數博前沿：大資料與區塊鏈有個共同關鍵字——分散式

分類＼科技
時間＼2017-03-19

IT技術發展的分分合合和人類社會一樣，IT技術發展也呈現出“合久必分，分久必合”，即集中與分佈的螺旋式上升。

電腦誕生初期，僅能實現一對一的使用，是集中化的。為了使一台大型機能夠同時為多個客戶提供服務，IBM公司引入了虛擬化的設計思想，使多個客戶在同時使用同一台大型機時，就好像將其分割成了多個小型化的虛擬主機，是時分複用的集中式計算。

進入小型機和PC時代，回歸了一對一的使用，不過設備已經分散到了千家萬戶。

進入互聯網時代，C/S模型的用戶端和伺服器是分散式運算，只不過伺服器之間還是分散的。

進入雲計算時代，計算能力又被統一管控起來，在用戶端和伺服器的分散式運算基礎之上，伺服器之間也開始了分散式協同工作。因為協同，可以認為它們在整體上是一種集中式的計算服務。

進入大資料時代，雲計算成為大資料基礎設施，也使得大資料的核心思想和雲計算一脈相承。

MapReduce將任務分解進行分散式運算，然後將結果合併從而實現了資訊的整合分析。

大資料的分析挖掘是資料密集型計算，需要巨大的分散式運算能力。節點管理、任務調度、容錯和高可靠性是關鍵技術。Google和Hadoop的MapReduce是這種分散式運算技術的代表，通過添加伺服器節點可線性擴展系統的總處理能力（ScaleOut），在成本和可擴展性上都有巨大的優勢。現在，除了批計算，大資料還包括了流計算、圖計算、即時計算、交互查詢等計算框架。

大資料和區塊鏈技術之間有個共同的關鍵字——分散式，代表了一種從技術權威壟斷到去中心化的轉變。

大資料，需要應對海量化和快增長的存儲，這要求底層硬體架構和檔案系統在性價比上要大大高於傳統技術，能夠彈性擴張存儲容量。穀歌的GFS和Hadoop的HDFS奠定了大資料存儲技術的基礎。另外，大資料對存儲技術提出的另一個挑戰是多種資料格式的適應能力，

因此，現在大資料底層的存儲層不只是HDFS，還有HBase和Kudu等存儲架構。

區塊鏈，是比特幣的底層技術架構，它在本質上是一種去中心化的分散式帳本。區塊鏈技術作為一種持續增長的、按序整理成區塊的鏈式資料結構，通過網路中多個節點共同參與資料的計算和記錄，並且互相驗證其資訊的有效性。從這一點來說，區塊鏈技術也是一種特定的資料庫技術。

由於去中心化資料庫在安全、便捷方面的特性，很多業內人士看好其發展，認為它是對現有互聯網技術的升級與補充。

​數博前沿：大資料與區塊鏈有個共同關鍵字——分散式

數博前沿：大資料與區塊鏈有個共同關鍵字——分散式