華文網

大資料應用特輯/大資料在醫療領域的應用

資料是系統的核心,在面向服務的架構之外,可以考慮面向資料的架構方式。面向資料的服務架構需要支援多資料來源異構,支援動態資料和靜態資料,既支援公有雲部署又支援私有雲部署,

提供多種資料應用和資料產品,如下圖所示:

一般地,為了不影響業務系統的正常運行,會將不同資料來源彙集起來,技術的採集與攝取,然後進行資料的存儲及一系列的操作處理, 最終通過各種的解決方案形成資料應用衍生的資料產品。

從開發的角度看,可以分成基礎設施,運營工具,開發工具和解決方案四層,從資料自身來看,也可以分為資料來源,動態資料,靜態資料和資料應用4個層次,相互是有交疊的。

資料來源

資料來源決定了資料的寬度, 數量量決定了資料的厚度。即使是做資料應用,也是和具體的業務領域相關的,資料的價值不是憑空出現的。所以, 業務系統的資料是第一位的,也是最容易獲得,

直接的價值也較高。

其次是使用者的行為資料,經管使用者經受了產品本身的誘導和局限,但使用者的行為資料還是在一定程度上體現的用戶便好。 過去的可用性測試甚至形成了可用性工程,而今,一般都會通過使用者的行為資料來檢驗使用者體驗。

物聯網(IOT)的到來,凸顯了感測器資料的重要性。感測器資料是相對高頻的資料,與時間序列相關,可以考慮與時間相關的資料存儲,

以及資料的遷移。位置資料可以看作是一種特殊的感測器資料,通過位置資料可以得到物理上空間位置的描述,是一種非常有用的資料,尤其對移動互聯網應用而言。

文檔資料大多是非結構化資料,一般是檔案系統和NoSQL 的勝場。對於很多企業而言,往往紙質文檔資料化的過程,隨著AI技術的發展,尤其是OCR 相關技術的逐漸成熟,所有文檔都是資料資源。

動態資料

動態資料的採集過程與靜態資料是類似的,關鍵在於分析流程,對於動態資料而言,分析是實事發生的。

對於動態資料,需要採用即時處理方法。時延是需要考量的一個關鍵因素,時間就是金錢在這裡體現的淋漓盡致。 通過減少多租戶的資源約束和雲服務的使用可以降低時延,提高性能水準,能夠即時處理大流量資料.

資料流程程相似于傳統的ETL流程,在資料提取時同時完成資料的初步轉換和清洗,

具體流程還是與目標息息相關的。資料流程處理是動態資料處理的核心部分,既可以對動態資料進行進一步的清洗然後存儲,又可以直接引入分析方法,與後面的流式應用連接起來。

資料治理是指從使用零散資料變為使用統一主資料、從具有很少或沒有組織和流程治理到業務範圍內的綜合資料治理、從嘗試處理主資料混亂狀況到主資料井井有條的一個過程。

資料安全是資料本身的安全,主要是指採用加密方法對資料進行主動保護,如數據保密、資料完整性、雙向身份認證等,同時也是資料防護的安全,主要是對資料存儲進行主動防護,如通過磁碟陣列、資料備份、異地容災等手段保證資料的安全。

資料運營是指通過對動態資料的分析挖掘,把隱藏在海量資料中的資訊以合規化的形式發佈出去,供資料的消費者使用。動態資料的資料運營是一個非常具有挑戰性的課題。

靜態資料

對於靜態資料的操作,更像是一種批次處理形式,是一種離線分析,更像是傳統的OLAP,這樣可以擁有較高性能的處理能力。這意味著先從各種資料來源獲取資料,然後再進行分析處理。靜態資料處理分為了兩個階段,例如一個零售終端分析上個月的資料來決定本月的商業活動, 是否能夠根據使用者的購買行為來發放定制化的優惠卷等等。

具體的分析計算既可以再私有雲上執行,也可以在公有雲上執行。對於一定規模資料,尤其是探索性資料分析,一般都可以在私有雲進行計算,甚至直接在私有雲上提供資料應用和資料產品。

資料應用

資料應用包含了計算框架,演算法,資料的視覺化以及具體的應用呈現。不論是企業應用還是移動應用以及互動式Web應用,都可以使用資料計算得到的結果。流式應用和搜索應用都是與計算框架緊密相關的,可以通過Storm 和ElasticSearch 實現,也可以通過Spark 框架實現。

商業智慧(BI),傳統上是基於資料倉庫的資料採擷,發現資料中潛在的價值。而在面向資料的架構中,BI的分析方法可以不變,只改變計算的方式,也可以對分析方法進行演講。

隨機分析是一種探索性資料分析,是一種對資料摸索和嘗試,可以使用Hive,pig,sparkSQL等工具執行,明確進一步探索的方向。統計分析是更加具體的一種離線分析,基於統計模型的資料分析處理。

機器學習(Machine Learning, ML)是一門多領域交叉學科,模擬或實現人類的學習行為,以獲取新的知識或技能,是人工智慧的核心,框架有很多,例如Mahout以及SparkML等。

資料安全是資料本身的安全,主要是指採用加密方法對資料進行主動保護,如數據保密、資料完整性、雙向身份認證等,同時也是資料防護的安全,主要是對資料存儲進行主動防護,如通過磁碟陣列、資料備份、異地容災等手段保證資料的安全。

資料運營是指通過對動態資料的分析挖掘,把隱藏在海量資料中的資訊以合規化的形式發佈出去,供資料的消費者使用。動態資料的資料運營是一個非常具有挑戰性的課題。

靜態資料

對於靜態資料的操作,更像是一種批次處理形式,是一種離線分析,更像是傳統的OLAP,這樣可以擁有較高性能的處理能力。這意味著先從各種資料來源獲取資料,然後再進行分析處理。靜態資料處理分為了兩個階段,例如一個零售終端分析上個月的資料來決定本月的商業活動, 是否能夠根據使用者的購買行為來發放定制化的優惠卷等等。

具體的分析計算既可以再私有雲上執行,也可以在公有雲上執行。對於一定規模資料,尤其是探索性資料分析,一般都可以在私有雲進行計算,甚至直接在私有雲上提供資料應用和資料產品。

資料應用

資料應用包含了計算框架,演算法,資料的視覺化以及具體的應用呈現。不論是企業應用還是移動應用以及互動式Web應用,都可以使用資料計算得到的結果。流式應用和搜索應用都是與計算框架緊密相關的,可以通過Storm 和ElasticSearch 實現,也可以通過Spark 框架實現。

商業智慧(BI),傳統上是基於資料倉庫的資料採擷,發現資料中潛在的價值。而在面向資料的架構中,BI的分析方法可以不變,只改變計算的方式,也可以對分析方法進行演講。

隨機分析是一種探索性資料分析,是一種對資料摸索和嘗試,可以使用Hive,pig,sparkSQL等工具執行,明確進一步探索的方向。統計分析是更加具體的一種離線分析,基於統計模型的資料分析處理。

機器學習(Machine Learning, ML)是一門多領域交叉學科,模擬或實現人類的學習行為,以獲取新的知識或技能,是人工智慧的核心,框架有很多,例如Mahout以及SparkML等。