講科技：大數據認知有誤入局者多在半路

------本期內容導讀------

國家一方面在大力推進大資料技術的應用與發展，另一方面也加緊關注普通民眾的資訊安全問題，並於差不多近一年前頒佈了《網路安全法》之後，

更是不不遺餘力地推進關於網路環境下的公民隱私保護的問題。這就充分說明了，大資料技術與隱私保護並不矛盾

------以下正文詳情------

關於大資料，大家的態度既很歡迎，但也很擔心。總覺得它所發揮出來的神奇作用，會在許多場合侵犯我們的個人隱私。我們每個人的生活在大資料的面前，會變得越來越成透明、越來越不那麼真實，實際上，這正反映了現代人對於大資料技術的應用領域與發展方向的不準確認識。

要知道，國家一方面在大力推進大資料技術的應用與發展，另一方面也加緊關注普通民眾的資訊安全問題，並於差不多近一年前頒佈了《網路安全法》之後，更是不不遺餘力地推進關於網路環境下的公民隱私保護的問題。

這就充分說明了，大資料技術與隱私保護並不矛盾。又或者更準確地說：凡是影響或侵犯公民隱私的技術，就不能被稱之為大資料技術；

首先，大資料真的並不是一個過於簡單的詞彙，也不是一項可以普及化、尋常化的技術。大資料裡的“大”是切切實實地需要足夠的資料量才可以達標的。雖然對此大家的爭議比較大，但是有一點基礎認知是共同的。那就是資料量至少得是PB級的，演算法或者處理邏輯的時間複雜度是n的平方甚至更高的這種規模，也能算得進大資料，這點怎麼理解呢？

PB級的資料量，也就是1024個T，約是4千億頁文本，這是怎麼一個概念呢？這樣子來看，

世界上最大的搜尋引擎Google大約能搜索超過20億的Web頁面、3500萬份非HTML文檔及大約5千萬列印頁面的消息，這樣折算下來最多不過是40億頁文本，也只是0.01PB而已。

所以，大資料真的不是誰都可以談及的。在現實生活中，較早觸及這一領域的莫過於三大通訊運營商，其中以中國移動與中國電信為主，他們從十幾年前就開始大量進行使用者資料、運營資料、使用資料以及業務資料的資料倉庫建設與應用分析積累。對於他們而言，多達幾億以上的客戶資料、帳單、訪問記錄、使用情況，再加上新環境下出現的各種客戶畫像、歷史消費習慣等等的資料，已經構成了這一領域裡最大的資料體系；

可是，在公認的領域中，無論是中國移動、還是中國電信，

他們仍然無法證明自己是一家大資料公司。畢竟，在最近幾年的每一年315中，通信運營商仍然是大眾投訴的熱點，各種關於這一行業的投訴、障礙以及不便，都折射出他們在資料記錄、資料跟蹤等方面依舊十分粗糙與不足。

其二，資料大只是基礎之一，最關鍵的就是資料處理的價值何在？有技術控曾經在知乎上吐槽過，只要給他幾百台機器，一兩個工程師，做的類似Hive的資料分析平臺，一個月就可以處理超過100PB的資料。這個並沒有什麼太大的難度，難度在於你得處理什麼樣的資料；

就如上文提到的移動與電信，他們並非不知道自己的資料庫裡的量還是太少，還不足以支撐大資料的業務。可是關鍵問題是，如果真的要把用戶所有的行為、所有的軌跡、所以的資料都全部記錄下來，

那麼為了採集與記錄這些資料所要花費的成本，可能遠遠不是通訊業當前的利潤與收入所能承擔得了的；

其三，大資料的應用雖然得益於互聯網上的幾個經典段子，但卻又是受這幾個段子的誤導之害。段子之一是德國的超市經過大資料分析發現啤酒與尿片的暢銷時間重合，於是將兩種商品放在一起就提高的營業額；段子之二是美國某商場根據某使用者成員流覽習慣推薦了母嬰用品，用戶家庭先投訴後發現自己的未成年女兒居然真的懷了孕；

就句實話，這兩個例子雖然是生動貼切，但是卻對大資料的真實應用有了很不好的影響。它增強了民眾對於大資料的妖魔化形象，讓大資料變得更像窺探百姓個人隱私的魔鏡一樣，這並不是一個科學的認知。

事實上，無論是商品的組合銷售策略，還是商場的促銷資訊的投放，這些應用領域本身所具有的價值，都不足以承擔大資料運行的成本。大資料技術的精髓，並不是某顧客流覽了A商品，我們就斷定他喜歡A商品那麼簡單，如果這就是大資料的話，那麼最終出來的應用也將會是災難性的；

大資料的演算法與模型一般都需要在極其龐大的資料支撐下，花費非常大的代價才能訓練出來。比如如今大家都知道的“今日頭條”，市場上許多應用都在模仿它，都有號稱自己能提供“你所喜歡的頭條”這樣的功能。可是，為何最終大家都只認為頭條上的新聞更準確、更有效呢？一是它擁有了最大的用戶量，二是它有了足夠長時間下的演算法優化，後來者，真的很難趕上與超越；

讓大資料變得更像窺探百姓個人隱私的魔鏡一樣，這並不是一個科學的認知。

講科技：大數據認知有誤 入局者多在半路

講科技：大數據認知有誤入局者多在半路