您的位置:首頁>科技>正文

大資料應用特輯/大資料在醫療領域的應用

資料是系統的核心, 在面向服務的架構之外, 可以考慮面向資料的架構方式。 面向資料的服務架構需要支援多資料來源異構, 支援動態資料和靜態資料, 既支援公有雲部署又支援私有雲部署, 提供多種資料應用和資料產品, 如下圖所示:

一般地, 為了不影響業務系統的正常運行, 會將不同資料來源彙集起來, 技術的採集與攝取, 然後進行資料的存儲及一系列的操作處理, 最終通過各種的解決方案形成資料應用衍生的資料產品。

從開發的角度看, 可以分成基礎設施, 運營工具, 開發工具和解決方案四層, 從資料自身來看, 也可以分為資料來源, 動態資料, 靜態資料和資料應用4個層次, 相互是有交疊的。

資料來源

資料來源決定了資料的寬度, 數量量決定了資料的厚度。 即使是做資料應用, 也是和具體的業務領域相關的, 資料的價值不是憑空出現的。

所以, 業務系統的資料是第一位的, 也是最容易獲得, 直接的價值也較高。

其次是使用者的行為資料, 經管使用者經受了產品本身的誘導和局限, 但使用者的行為資料還是在一定程度上體現的用戶便好。 過去的可用性測試甚至形成了可用性工程, 而今, 一般都會通過使用者的行為資料來檢驗使用者體驗。

物聯網(IOT)的到來, 凸顯了感測器資料的重要性。 感測器資料是相對高頻的資料, 與時間序列相關, 可以考慮與時間相關的資料存儲, 以及資料的遷移。 位置資料可以看作是一種特殊的感測器資料, 通過位置資料可以得到物理上空間位置的描述, 是一種非常有用的資料, 尤其對移動互聯網應用而言。

文檔資料大多是非結構化資料,

一般是檔案系統和NoSQL 的勝場。 對於很多企業而言, 往往紙質文檔資料化的過程, 隨著AI技術的發展, 尤其是OCR 相關技術的逐漸成熟, 所有文檔都是資料資源。

動態資料

動態資料的採集過程與靜態資料是類似的, 關鍵在於分析流程, 對於動態資料而言, 分析是實事發生的。

對於動態資料, 需要採用即時處理方法。 時延是需要考量的一個關鍵因素, 時間就是金錢在這裡體現的淋漓盡致。 通過減少多租戶的資源約束和雲服務的使用可以降低時延, 提高性能水準, 能夠即時處理大流量資料.

資料流程程相似于傳統的ETL流程, 在資料提取時同時完成資料的初步轉換和清洗, 具體流程還是與目標息息相關的。

資料流程處理是動態資料處理的核心部分, 既可以對動態資料進行進一步的清洗然後存儲, 又可以直接引入分析方法, 與後面的流式應用連接起來。

資料治理是指從使用零散資料變為使用統一主資料、從具有很少或沒有組織和流程治理到業務範圍內的綜合資料治理、從嘗試處理主資料混亂狀況到主資料井井有條的一個過程。

資料安全是資料本身的安全, 主要是指採用加密方法對資料進行主動保護, 如數據保密、資料完整性、雙向身份認證等, 同時也是資料防護的安全, 主要是對資料存儲進行主動防護, 如通過磁碟陣列、資料備份、異地容災等手段保證資料的安全。

資料運營是指通過對動態資料的分析挖掘,

把隱藏在海量資料中的資訊以合規化的形式發佈出去, 供資料的消費者使用。 動態資料的資料運營是一個非常具有挑戰性的課題。

靜態資料

對於靜態資料的操作, 更像是一種批次處理形式, 是一種離線分析, 更像是傳統的OLAP, 這樣可以擁有較高性能的處理能力。 這意味著先從各種資料來源獲取資料, 然後再進行分析處理。 靜態資料處理分為了兩個階段, 例如一個零售終端分析上個月的資料來決定本月的商業活動, 是否能夠根據使用者的購買行為來發放定制化的優惠卷等等。

具體的分析計算既可以再私有雲上執行, 也可以在公有雲上執行。 對於一定規模資料, 尤其是探索性資料分析, 一般都可以在私有雲進行計算, 甚至直接在私有雲上提供資料應用和資料產品。

資料應用

資料應用包含了計算框架,演算法,資料的視覺化以及具體的應用呈現。不論是企業應用還是移動應用以及互動式Web應用,都可以使用資料計算得到的結果。流式應用和搜索應用都是與計算框架緊密相關的,可以通過Storm 和ElasticSearch 實現,也可以通過Spark 框架實現。

商業智慧(BI),傳統上是基於資料倉庫的資料採擷,發現資料中潛在的價值。而在面向資料的架構中,BI的分析方法可以不變,只改變計算的方式,也可以對分析方法進行演講。

隨機分析是一種探索性資料分析,是一種對資料摸索和嘗試,可以使用Hive,pig,sparkSQL等工具執行,明確進一步探索的方向。統計分析是更加具體的一種離線分析,基於統計模型的資料分析處理。

機器學習(Machine Learning, ML)是一門多領域交叉學科,模擬或實現人類的學習行為,以獲取新的知識或技能,是人工智慧的核心,框架有很多,例如Mahout以及SparkML等。

甚至直接在私有雲上提供資料應用和資料產品。

資料應用

資料應用包含了計算框架,演算法,資料的視覺化以及具體的應用呈現。不論是企業應用還是移動應用以及互動式Web應用,都可以使用資料計算得到的結果。流式應用和搜索應用都是與計算框架緊密相關的,可以通過Storm 和ElasticSearch 實現,也可以通過Spark 框架實現。

商業智慧(BI),傳統上是基於資料倉庫的資料採擷,發現資料中潛在的價值。而在面向資料的架構中,BI的分析方法可以不變,只改變計算的方式,也可以對分析方法進行演講。

隨機分析是一種探索性資料分析,是一種對資料摸索和嘗試,可以使用Hive,pig,sparkSQL等工具執行,明確進一步探索的方向。統計分析是更加具體的一種離線分析,基於統計模型的資料分析處理。

機器學習(Machine Learning, ML)是一門多領域交叉學科,模擬或實現人類的學習行為,以獲取新的知識或技能,是人工智慧的核心,框架有很多,例如Mahout以及SparkML等。

Next Article
喜欢就按个赞吧!!!
点击关闭提示