歷時半年,Apache Spark 2.2終於脫掉了“實驗”的帽子,可用於實際生產環境
敲黑板!!!知識點來了:Apache Spark 2.2終於脫掉了“實驗”的帽子,可用於實際生產環境。Spark 2.2最大的亮點就是Structured Streamin,它是用於構建Apache Spark 2.0中引入的連續應用程式的高級API,允許應用程式即時做出決策。 根據博客內容,
結構化流媒體現在有了一些更高層次的變化:
Kafka Source和Sink: 支援 以流式或批量的方式從Apache Kafka中讀取和寫入資料
Kafka Improvements: 緩存的生產者,從低延遲Kafka到Kafka流
Additional Stateful API: 使用[MapGroupsWithState支援複雜的狀態處理和超時處理
Run Once Triggers: 允許觸發僅一次執行,從而降低集群成本
Apache Spark 2.2概述
SQL和Core API
Apache Spark 2.2增加了許多SQL功能:
API更新: 統一資料來源和hive serde表的CREATE TABLE語法,並為SQL查詢添加廣播提示,如BROADCAST,BROADCASTJOIN和MAPJOIN
總體性能和穩定性:
基於成本優化器的過濾、連接、聚合、專案和限制/樣本運算子的基數估計以及基於成本的連接重新排序
使用星型模式的TPC-DS性能提升
CSV和JSON的檔列表/ IO改進
支援HiveUDAFF功能的部分聚合
引入基於JVM物件的聚合運算子
其他顯著變化:
支持解析多行JSON和CSV檔
分析分區表上的表命令
MLlib和SparkR
MLlib和GraphX中添加了這些新演算法:
Locality Sensitive Hashing
Multiclass Logistic Regression
Personalized PageRank
Spark 2.2還增加了對SparkR中分散式演算法的支援:
ALS
Isotonic Regression
Multilayer Perceptron Classifier
Random Forest
Gaussian Mixture Model
LDA
Multiclass Logistic Regression
Gradient Boosted Trees
Structured Streaming API for R
column functions to_json, from_json for R
Multi-column approxQuantile in R
Databricks軟體工程師Xiangrui Meng:MLlib的 使命 是讓機器學習變得容易和可擴展。我們希望使資料科學家和機器學習工程師都能夠輕鬆構建真實的機器學習(ML)管道。Spark MLlib讓資料科學家和機器學習工程師的生活更輕鬆,從而可以專注于建立更好的ML模型和應用。我們也希望MLlib能夠收集擁有更多資料,