華文網

淺談互聯網時代下的大資料分析及挖掘技術

大資料分析技術。改進已有資料採擷和機器學習技術;開發資料網路挖掘、特異群組挖掘、圖挖掘等新型資料採擷技術;突破基於物件的資料連接、相似性連接等大資料融合技術;突破使用者興趣分析、網路行為分析、情感語義分析等面向領域的大資料採擷技術。

資料採擷就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。資料採擷涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、資料總結、聚類、關聯規則發現、序列模式發現、依賴關係或依賴模型發現、異常和趨勢發現等等;根據挖掘物件可分為關聯式資料庫、物件導向資料庫、空間資料庫、時態資料庫、文本資料來源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;根據挖掘方法分,

可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。

統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。

神經網路方法中,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。

資料庫方法主要是多維資料分析或OLAP方法,另外還有面向屬性的歸納方法。

從挖掘任務和挖掘方法的角度,著重突破:1、視覺化分析。資料視覺化無論對於普通使用者或是資料分析專家,都是最基本的功能。資料圖像化可以讓資料自己說話,讓使用者直觀的感受到結果。

2、資料採擷演算法。圖像化是將機器語言翻譯給人看,而資料採擷就是機器的母語。分割、集群、孤立點分析還有各種各樣五花八門的演算法讓我們精煉資料,挖掘價值。這些演算法一定要能夠應付大資料的量,同時還具有很高的處理速度。

3、預測性分析。預測性分析可以讓分析師根據圖像化分析和資料採擷的結果做出一些前瞻性判斷。

4、語義引擎。語義引擎需要設計到有足夠的人工智慧以足以從資料中主動地提取資訊。語言處理技術包括機器翻譯、情感分析、輿情分析、智慧輸入、問答系統等。

5、資料品質和資料管理。資料品質與管理是管理的最佳實踐,透過標準化流程和機器對資料進行處理可以確保獲得一個預設品質的分析結果。