歷時半年，Apache Spark 2.2終於脫掉了“實驗”的帽子，可用於實際生產環境

分類＼科技
時間＼2017-07-13

敲黑板！！！知識點來了：Apache Spark 2.2終於脫掉了“實驗”的帽子，可用於實際生產環境。Spark 2.2最大的亮點就是Structured Streamin，它是用於構建Apache Spark 2.0中引入的連續應用程式的高級API，允許應用程式即時做出決策。根據博客內容，

Databricks公司的目標是“更易於構建端到端的流應用程式，以一致和容錯的方式與存儲、服務系統和批次處理作業集成。”

結構化流媒體現在有了一些更高層次的變化：

Kafka Source和Sink：支援以流式或批量的方式從Apache Kafka中讀取和寫入資料

Kafka Improvements：緩存的生產者，從低延遲Kafka到Kafka流

Additional Stateful API：使用[MapGroupsWithState支援複雜的狀態處理和超時處理

Run Once Triggers：允許觸發僅一次執行，從而降低集群成本

Apache Spark 2.2概述

SQL和Core API

Apache Spark 2.2增加了許多SQL功能：

API更新：統一資料來源和hive serde表的CREATE TABLE語法，並為SQL查詢添加廣播提示，如BROADCAST，BROADCASTJOIN和MAPJOIN

總體性能和穩定性：

基於成本優化器的過濾、連接、聚合、專案和限制/樣本運算子的基數估計以及基於成本的連接重新排序

使用星型模式的TPC-DS性能提升

CSV和JSON的檔列表/ IO改進

支援HiveUDAFF功能的部分聚合

引入基於JVM物件的聚合運算子

其他顯著變化：

支持解析多行JSON和CSV檔

分析分區表上的表命令

MLlib和SparkR

MLlib和GraphX中添加了這些新演算法：

Locality Sensitive Hashing

Multiclass Logistic Regression

Personalized PageRank

Spark 2.2還增加了對SparkR中分散式演算法的支援：

ALS

Isotonic Regression

Multilayer Perceptron Classifier

Random Forest

Gaussian Mixture Model

LDA

Multiclass Logistic Regression

Gradient Boosted Trees

Structured Streaming API for R

column functions to_json, from_json for R

Multi-column approxQuantile in R

Databricks軟體工程師Xiangrui Meng：MLlib的使命是讓機器學習變得容易和可擴展。我們希望使資料科學家和機器學習工程師都能夠輕鬆構建真實的機器學習（ML）管道。Spark MLlib讓資料科學家和機器學習工程師的生活更輕鬆，從而可以專注于建立更好的ML模型和應用。我們也希望MLlib能夠收集擁有更多資料，

從更大規模的資料集中學習和挖掘更多價值。