大數據2018：雲存儲已在客觀層面扮演資料湖角色

分類＼科技
時間＼2018-01-03

儘管AI、物聯網以及GDPR（一般資料保護條例）持續佔據頭條，

但也不要忘記在大資料的實現性應用方面，雲遷移與流分析所產生的劃時代影響。

誠然，AI所產生的影響已然無法忽視，其影響所覆蓋的範圍從地緣政治到市井瑣事，甚至還參與了一些舉世聞名的事件。此外，物聯網在當今社會中日益增長的影響也是不容忽視的，具體包括家庭、醫院提供醫療服務的方式、自動駕駛汽車的驅動、工廠的運營以及智慧化城市管理等方面。

爾後，GDPR將在2018年生效，這將迫使各組織著力解決將涉及隱私與國家主權影響的資料從現有資料庫轉移到資料湖與雲存儲的過程中所要面臨的問題。

透過表面看本質，我們發現構造性轉變已經開始，具體包括企業在雲領域的管理方式、流資料分析與資料湖戰略等。

關於未來展望，我們將著眼於資料的管理方式。回顧過去的一年，我們曾表示“大資料——無論其來自於物聯網還是更為傳統的資源——將會逐步實現在雲中完成存儲與處理。”去年，我們預計會有35—40%的新生大資料工作負載將在雲端完成部署，而到2018年底，新的部署將超過50%。

我們的預測並非不切實際；Ovum針對所有大資料工作負載的最新全球調查研究顯示，在此之中的27.5%已經完成了雲端部署。

另外，根據Ovum的報告，企業雲應用很難將大資料拒之門外，而在各式各樣的工作負載中，企業雲應用所佔據的比例在26—30%之間。

由於慣性使然，大多數組織已經不再堅持立足雲環境複製與其自有資料中心相關的種種功能特性。此外，大多數組織會選擇使用多個家雲供應商，這看似是為了取各家之所長。然而，正如以往的類似教訓一樣，這其實只是自上而下的企業標準政策與部門針對相關政策權衡之後所做出的妥協性決策產物。

因此，如同您所在的組織可能面臨SAP的使用成本一樣，不同部門可能同樣面臨著與人力資源相關的日常開銷或CRM銷售壓力，抑或擁有多種尚未與企業遺留方案相融合的ERP系統。在雲端，企業電子郵件系統可能通過Office 365實現，而部門IT團隊則將使用AWS進行開發與測試; 與此同時，企業行銷團隊使用的則是Google Analytics。

隨著雲從運行獨立工作負載的目標發展至企業關鍵型應用，我們預計在2018年初期，大多數公司將開始正式實施多雲策略——正如在2017年，我們將雲端部署視為大資料的隱患一般——多雲也因此將成為2018年亟待解決的問題。也正因為如此，甲骨文方面決定將運行在亞馬遜RDS服務上的資料庫產品的使用價格進行翻倍; 這也是為何Aurora OLTP資料庫目前能夠成為亞馬遜公司中增長速度最快的服務（在此之前的冠軍為Redshift）。

這不僅僅是雲供應商對於此類擔憂的反應性決策，多雲的決策將影響有關平臺的選擇。當您選擇在EC 2上運行一套甲骨文的資料庫或Hadoop集群時——若Azure或Google Cloud調整其定價——這同時也成為了一項值得重新審視的抉擇。

當您選擇在IBM雲端運行Aurora、Cosmos DB、穀歌BigQuery、甲骨文Autonomous資料庫18c或IBM分析系統時，這不僅意味著需要選擇雲，還需要選擇資料平臺。現在，您對於這一選擇是否能夠讓運行一套特定雲的資料平臺增值的關注度已經遠勝於是否選擇依賴一家特定的雲供應商——這就如同讓您再一次面對甲骨文公司或SQL Server平臺做出決策。

誠然，這也是亞馬遜公司與微軟方面正在以幾乎免費的方式提供資料庫遷移服務的原因——毫無疑問的是這兩家公司想要佔領您的企業資料庫。同樣，我們預計Google Cloud、甲骨文與IBM將會在2018年積極以虧損方式搶佔資料庫遷移服務份額，並且越來越多的企業會在這一領域拼盡全力。

多雲戰略也將在混合雲的管理方面發揮至關重要的作用。正如鮮有組織——無論其規模如何——傾向于依賴單一雲供應商一般，也很少有組織（除了初創企業之外）會將全部的工作負載轉移至雲端。在雲計算平臺運行分析時，無論是在設計抑或是資料主權的問題上，維護敏感客戶記錄的透明度將會成為影響雲計算平臺選擇的主要因素。

資料管道改變了即時處理的重心

去年，我們預測“物聯網將成為把即時流資料推向前端的應用實例。”今年，穀歌方面的Anadiotis預測，不僅流資料將成為主流，“並且還將逐步實現即時分析。”

流資料分析並非是新鮮術語；在此之前，我們已經投入了大量精力以讓其重拾關注。在進行資料存儲之前，流資料處理可被用於資料的解析與過濾以及模式或事件的檢測。物聯網資料的爆炸式增長自然催生了難題——所有資料是否都需要存儲以及在哪裡完成資料的處理。

隨著我們日益增長的技術需求，我們希望能夠在資料運行的同時完成更多的工作負載。這不僅解釋了用於佇列處理的Kafka與分發資料技術的萌生，還表明了資料平臺供應商——諸如SAP、 Hortonworks、MapR與 Teradata——正在採取相關行動的原因。 Amazon Kinesis、 Azure Data Factory以及 Google Cloud Dataflow的崛起亦是這類即時需求的直接產物。資料管道能夠將即時處理從基礎過濾與轉換擴展為協調進程，從而支援高級預測分析與機器學習。因此，我們預計資料管道將在2018年成為流式分析的關鍵性支柱。此外，我們還將在這個領域聽到來自於IBM與甲骨文等供應商所帶來的更多消息。

雲存儲已在客觀層面扮演資料湖角色

因為資料湖是專為保存那些不適合於其它位置且易丟失的資料而設計，所以當您想到資料湖時，您可能自然就會想到Hadoop。我們已經將資料湖定義為受管理的存儲庫，並致力於讓其成為資料的預設提取點。但是，我們現在發現資料湖的安裝啟用超過了Hadoop。或者正如Mike Olson在2014年所預言的一般——Hadoop終將消失。

資料湖以聯動查詢工具作為起點，現已成為每個分析資料庫的配套專案。我們已經見證了JSON資料庫通過Spark進行擴展，從而實現分析查詢。此外，我們還目睹了各Hadoop供應商（例如Cloudera 與 Hortonworks）將其資料管理服務與HDFS分離。所以，現在資料湖即是資料存儲的位置所在。

毫無疑問，雲供應商享有最後的發言權：在雲端，雲存儲顯然已成為資料的預設攝取點。所以，雲供應商正在致力於讓其雲物件存儲配備直接查詢功能。亞馬遜方面現在已可通過S3直接訪問配有Athena 的SQL 實際查詢，並可作為Redshift Spectrum資料倉庫的擴展。Google Cloud早已將其雲存儲作為BigQuery的預設來源，而Snowflake——協力廠商雲資料倉庫——也是如此。

此外，頗為諷刺的是，雲存儲最初其實專為存儲需求而設計。然而，在雲物件存儲佔據了大部分數據的世界裡，催生了企業要優化訪問需求。所以在2018年，我們預計幾乎所有的資料倉庫與分析資料庫都將對接當下流行的雲物件存儲方案，具體包括S3、Azure BLOB Storage與Google Cloud Storage等支援目標。

資料管道改變了即時處理的重心

雲存儲已在客觀層面扮演資料湖角色