新書推薦——《大資料系統運維》“一場時代對話”

來源/六部閱讀(ID:Tsinghua-6)

大資料發展趨勢

大資料已不再只是一個流行術語。

根據調研機構IDC公司預測，大資料和業務分析市場將從2018年的1301億美元增長到2020年的2030多億美元。

“資料的可用性、新一代技術以及向資料驅動型決策的文化轉型將繼續推動企業對大資料和分析技術和服務的需求。 ”IDC公司分析和資訊管理集團副總裁Dan Vesset說， “2015年的全球大資料市場收入達到1220億美元， 2016年的市場收入增長11.3%，預計到2020年大資料市場收入的複合年均增長率將達到11.7%。 ”

雖然大資料市場將會增長，但企業對如何使用他們的大資料卻不那麼清楚。

《大資料系統運維》

“一場時代對話”——打好大資料運維工作的一場硬仗

內容簡介

本書是大資料應用人才培養系列教材中的一冊，講解了大資料系統運維過程中的各個主要階段及其任務，包括配置管理、系統管理故障管理、性能管理、安全管理、高可用性管理、應用變更管理、升級管理及服務資源管理等。

本書可作為培養應用型人才的課程教材，也同樣適用于有意從事IT系統運維工作的廣大從業者和愛好者作為參考書

打鐵還需自身硬。打造大資料應用型人才，我們做好充足準備。 ——大資料應用人才培養系列教材

考慮到大資料人才未來要做具體的大資料基礎工作，本套叢書的講解側重于應用，對知識點給出具體的操作，並且有配套的動手實驗。內容安排遵循從簡單到複雜、從理論到實踐的學習過程;同時也遵循系統性和覆蓋面寬的原則。本套叢書可以作為培養應用型人才的課程教材，也同樣適用于有意從事大資料系統基礎工作的IT從業人員作為參考書。“千里之行，始於足下”，“不積跬步無以至千里”，希望大資料應用型人才從一開始就能有一個全面良好的基礎，本套叢書在起跑線上為你助力。——作者初衷

《大數據導論》

《大資料導論》是瞭解和學習大資料的基礎條件，通過本書瞭解大資料基本概念，大資料的架構，大資料的採集方式和預處理，常用的ETL工具，簡單熟悉資料倉庫的構建模式，大資料的存儲，資料採擷的方法，以及大資料的視覺化技術，從而更好的將大資料技術應用在各行業領域，更深入地開展大資料技術的應用研究。從基礎開始，通過理論與實際案例相結合，幫助讀者由淺入深進行學習，逐步清理大資料的核心技術和發展趨勢。本書可以作為培養應用型人才的課程教材，也適用於初學入門者，對大資料基礎理論有需求的廣大讀者。

《雲計算導論》

本書主要內容包括雲計算的基本概念、發展現狀、主要平臺的部署及關鍵技術、虛擬化與容器技術、雲計算的實用化、國內外雲計算服務與大規模應用、環境雲(envicloud.cn)和萬物雲(wanwuyun.com)典型行業應用介紹與剖析等內容，適用于應用型本科、高職高專院校的雲計算課程和教學。本書的實驗環境部署通過雲創大資料實驗平臺(https://bd.cstor.cn)上遠程開展。

《資料採擷基礎》

本書介紹了資料採擷的基本概念，包括資料採擷的常用演算法、常用工具、用途和應用場景及應用狀況，講述了常用資料採擷方法，如分類、聚類、關聯規則的概念、思想、典型演算法、應用場景等。此外，本書還從實際應用從發，講解了基於日誌的大資料採擷技術的原理、工具、應用場景和成功案例。通過以上內容的學習，讀者將瞭解資料採擷的基本概念、思想和演算法，並掌握其應用要領。本書可以作為培養應用型人才的課程教材，也可作為相關開發人員的自學教材和參考手冊。

《R語言》

近年來，R語言可謂是資料分析的熱門語言，相關的資料五花八門，讓讀者無所適從，本書力求用簡潔、精煉、理論實踐相結合的方式讓大家快速掌握R語言。全書共17章，分為基礎篇(第2-10章)，應用篇(第11-15章)和進階篇(第16-17章)。基礎篇按照資料分析過程，主要討論了R資料結構、資料導入/匯出、資料清洗、資料變換、視覺化、高階語言程式設計和常用建模方法。應用篇通過對5個經典案例的分析，使讀者能夠把學到的R基礎知識應用到解決實際問題，把資料變成價值。進階篇解決如何用R處理大資料的一些技術。本書可以作為培養應用型人才的課程教材，也可作為資料分析愛好者的參考資料。

《數據清洗》

資料清洗是大資料領域不可缺少的環節，用來發現並糾正資料中可能存在的錯誤。該步驟針對資料審查過程中發現的錯誤值、缺失值、異常值、可疑資料，選用適當方法進行“清理”，使“髒”資料變為“乾淨”資料。本書共分為8章：第1章主要介紹資料清洗的概念、任務和流程，資料標準化概念及資料倉庫技術等;第2章主要介紹Windows和類UNIX作業系統下的資料常規格式、資料編碼及資料類型轉換等;第3章介紹ETL概念、資料清洗的技術路線、ETL工具及ETL子系統等;第4章介紹了Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文字檔抽取、Web資料抽取、資料庫資料抽取及增量資料抽取等;第6章介紹資料清洗步驟、資料核對和資料錯誤處理，資料品質評估及資料載入;第7章介紹網頁結構，利用網路爬蟲技術進行資料獲取，利用JavaScript技術進行行為日誌資料獲取等;第8章介紹RDBMS的資料清洗方法和資料脫敏處理技術等。本書系統地講解了資料清洗理論和實際應用，可以作為培養應用型人才的課程教材，也適用於希望瞭解資料清洗的廣大讀者。

《大數據實踐》

本書內容涵蓋了目前使用廣泛的大資料處理系統Hadoop生態圈中的幾大核心軟體系統：分散式大資料處理系統Hadoop、Hadoop資料庫HBase、資料倉庫工具Hive、記憶體大資料計算框架Spark和Spark SQL，詳細介紹了它們的架構、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等內容。本書對上述幾大系統的各種安裝部署方式都給出了詳細步驟，常用命令也都有具體示例介紹，是一本實操性很強的工具書，能幫助初學者快速掌握和操作這幾款常用的大資料處理系統。本書以淺顯易懂的語言風格和圖文並茂的操作示例引領讀者邁入大資料實踐之門，可以作為培養應用型人才的課程教材，也可作為相關開發人員的自學教材和參考手冊。

《大資料系統運維》

本書是大資料應用人才培養系列教材中的一冊，講解了大資料系統運行維護過程中的各個主要階段及其任務，包括配置管理、系統管理、故障管理、性能管理、安全管理、高可用性管理、應用變更管理、升級管理及服務資源管理，內容全面且翔實，兼具基礎理論知識與運維實踐經驗，特別是重點介紹了大資料系統的運維特點及運維技能，以保障大資料系統的穩定可靠運行，更好地支撐大資料的商業應用價值。本書具有很強的系統性和實踐指導性，可以作為培養應用型人才的課程教材，也同樣適合於有意從事IT系統運維工作的廣大從業者和愛好者作為參考書。

《大數據導論》

《雲計算導論》

《資料採擷基礎》

《R語言》

《數據清洗》

《大數據實踐》

《大資料系統運維》