你務必要搞清楚的十大資料採擷知識點

資料採擷是神馬

資料採擷的含義

資料採擷是指有組織有目的地收集資料、分析資料，並從這些大量資料提取出需要的有用資訊，從而尋找出資料中存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。

資料採擷是一種從大量資料中尋找存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構的技術，是統計學、資料庫技術和人工智慧技術等技術的綜合。

資料採擷的本質

資料採擷的本質就是尋找出資料中存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。

資料採擷的學科聯繫

資料採擷是一門涉及面很廣的交叉學科，包括數理統計、人工智慧、電腦等。涉及機器學習、數理統計、神經網路、資料庫、模式識別、粗糙集、模糊數學等相關技術。

資料採擷的價值、目的、作用

資料採擷的價值

資料採擷大部分的價值在於利用資料採擷技術改善預測模型，

產生學術價值、促進生產、產生並促進商業利益，一切都是為了商業價值(資料——>信息——>知識——>商業)。

資料採擷的目的

資料採擷的最終目的是要實現資料的價值，所以，單純的資料採擷是沒有多大意義的。

資料採擷的作用

從大量資料中尋找存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。

資料採擷技術產生的背景

1. 資料正在以空前的速度增長，現在的資料是海量的大資料。現在，不缺乏資料，但是卻面臨一個尷尬的境地——資料極其豐富，資訊知識匱乏。

2. 海量的大資料已經遠遠超出了人類的理解能力，如果不借助強大的工具和技術，很難弄清楚大資料中所蘊含的資訊和知識。

重要決策如果只是基於決策制定者的個人經驗，而不是基於資訊、知識豐富的資料，那麼，這就極大地浪費了資料，也極大地給我們的商業、學習、工作、生產帶來不便和巨大的阻礙。所以，能夠方便、高效、快速地從大資料裡提取出巨大的資訊和知識是必須面對的，因此，資料採擷技術應運而生。資料採擷填補了資料和資訊、知識之間的鴻溝。

3. 資料採擷技術有助於實現從 DT(資料時代)向 KT(知識時代)轉變。

資料採擷與資料分析的區別

資料分析的兩種說法

即廣義的資料分析和狹義的資料分析。廣義的資料分析包括狹義的資料分析和資料採擷，而我們常說的資料分析就是指狹義的資料分析。

資料分析(狹義)

(1) 資料分析(狹義)的定義：簡單來說，

狹義的資料分析就是對資料進行分析。專業的說法，狹義的資料分析是指根據分析目的，用適當的統計分析方法及工具，對收集來的資料進行處理與分析，提取有價值的資訊，發揮資料的作用。

(2) 作用：它主要實現三大作用：現狀分析、原因分析、預測分析(定量)。狹義的資料分析的目標明確，先做假設，然後通過資料分析來驗證假設是否正確，從而得到相應的結論。

(3)方法：主要採用對比分析、分組分析、交叉分析、回歸分析等分析方法;

(4)結果：狹義的資料分析一般都是得到一個指標統計量結果。比如，總和、平均值等，這些指標資料都需要與業務結合進行解讀，才能發揮出資料的價值與作用。

資料採擷

(1)定義：資料採擷是指從大量的資料中，

通過統計學、人工智慧、機器學習等方法，挖掘出未知的、且有價值的資訊和知識的過程。

(2)作用：資料採擷主要側重解決四類問題，即分類、聚類、關聯和預測(定量、定性)。資料採擷的重點在尋找未知的模式與規律。比如，我們常說的資料採擷案例：啤酒與尿布、安全套與巧克力等，這就是事先未知的，但又是非常有價值的資訊。

(3)方法：主要採用決策樹、神經網路、關聯規則、聚類分析等統計學、人工智慧、機器學習等方法進行挖掘。

(4)結果：輸出模型或規則，並且可相應得到模型得分或標籤，模型得分如流失概率值、總和得分、相似度、預測值等，標籤如高中低價值用戶、流失與非流失、信用優良中差等。

總結

資料分析(狹義)與資料採擷的本質都是一樣的，都是從資料裡面發現關於業務的知識(有價值的資訊)，從而説明業務運營、改進產品以及説明企業做更好的決策。所以資料分析(狹義)與資料採擷構成廣義的資料分析。

資料採擷軟體及其發展

1. 第一代，代表軟體：Salford Systems 公司早期的 CART 系統。

2. 第二代，代表軟體：SAS Enterprise Miner;DBMiner，DBMiner 是加拿大 SimonFraser 大學開發的一個多工資料採擷系統，它的前身是 DBLearn。

3. 第三代，代表軟體：SPSS Clementine，SPSS Clementine 是 SPSS 公司的一個資料採擷平臺;RapidMiner，RapidMiner 是世界領先的資料採擷解決方案。

4. 第四代，正在開發。

資料採擷技術及其分類

資料採擷技術(方法)分為兩大類

(1)預言(Predication)：用歷史預測未來。

(2)描述(Description)：瞭解資料中潛在的規律。

有哪些資料採擷技術(方法)

資料採擷常用的方法有：分類、聚類、回歸分析、關聯規則、神經網路、特徵分析、偏差分析等。這些方法從不同的角度對資料進行挖掘。

(1)分類

分類的含義：就是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類。分類是依靠給定的類別對物件進行劃分的。

分類的目的(作用)：其目的是通過分類模型，將資料庫中的資料項目映射到某個給定的類別中。

主要的分類方法：決策樹、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神經網路等。

分類演算法的局限：分類作為一種監督學習方法，要求必須事先明確知道各個類別的資訊，並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量資料的時候，如果通過預處理使得資料滿足分類演算法的要求，則代價非常大，這時候可以考慮使用聚類演算法。

(2)聚類

聚類的含義：聚類指事先並不知道任何樣本的類別標號，按照物件的相似性和差異性，把一組物件劃分成若干類，並且每個類裡面物件之間的相似度較高，不同類裡面物件之間相似度較低或差異明顯。我們並不關心某一類是什麼，我們需要實現的目標只是把相似的東西聚到一起，聚類是一種無監督學習。

聚類與分類的區別：聚類類似於分類，但是，與分類不同的是，聚類不依靠給定的類別對物件進行劃分，而是根據資料的相似性和差異性將一組資料分為幾個類別。

聚類的目的：聚類與分類的目的不同。聚類是要按照物件的相似性和差異性將物件進行分類，屬於同一類別的資料間的相似性很大，但不同類別之間資料的相似性很小，跨類的資料關聯性很低。組內的相似性越大，組間差別越大，聚類就越好。

聚類的方法(演算法)：主要的聚類演算法可以劃分為如下幾類，劃分方法、層次方法、基於密度的方法、基於網格的方法、基於模型的方法。每一類中都存在著得到廣泛應用的演算法，劃分方法中有 k-means 聚類演算法、層次方法中有凝聚型層次聚類演算法、基於模型方法中有神經網路聚類演算法。

(3)回歸分析

回歸分析的含義：回歸分析是一個統計預測模型，用以描述和評估因變數與一個或多個引數之間的關係;反映的是交易資料庫中屬性值在時間上的特徵，產生一個將資料項目映射到一個實值預測變數的函數，發現變數或屬性間的依賴關係。

回歸分析的目的(作用)：回歸分析反映了資料庫中資料的屬性值在時間上的特徵，通過函數表達資料映射的關係來發現屬性值之間的依賴關係。

回歸分析的應用：回歸分析方法被廣泛地用於解釋市場佔有率、銷售額、品牌偏好及市場行銷效果。它可以應用到市場行銷的各個方面，如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢預測及有針對性的促銷活動等。

回歸分析的主要研究問題：資料序列的趨勢特徵、資料序列的預測、資料間的相關關係等。

(4)關聯規則

關聯規則的含義：關聯規則是隱藏在資料項目之間的關聯或相互關係，即可以根據一個資料項目的出現推導出其他資料項目的出現。關聯規則是描述資料庫中資料項目之間所存在的關係的規則。

關聯規則的目的(作用)：發現隱藏在資料間的關聯或相互關係，從一件事情的發生，來推測另外一件事情的發生，從而更好地瞭解和掌握事物的發展規律等等。

關聯規則的挖掘過程主要包括兩個階段：第一階段為從海量原始資料中找出所有的高頻項目組;第二階段為從這些高頻專案組產生關聯規則。

關聯規則的應用：關聯規則挖掘技術已經被廣泛應用于金融行業企業中用以預測客戶的需求，各銀行在自己的 ATM 機上通過捆綁客戶可能感興趣的資訊供使用者瞭解並獲取相應資訊來改善自身的行銷。

(5)神經網路方法

神經網路作為一種先進的人工智慧技術，因其自身自行處理、分佈存儲和高度容錯等特性非常適合處理非線性的問題，以及那些以模糊、不完整、不嚴密的知識或資料為特徵的問題，它的這一特點十分適合解決資料採擷的問題。

典型的神經網路模型主要分為三大類：第一類是以用於分類預測和模式識別的前饋式神經網路模型，其主要代表為函數型網路、感知機。第二類是用於聯想記憶和優化演算法的回饋式神經網路模型，以Hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織映射方法，以ART模型為代表。雖然神經網路有多種模型及演算法，但在特定領域的資料採擷中使用何種模型及演算法並沒有統一的規則，而且人們很難理解網路的學習及決策過程。

(6)Web資料採擷

Web資料採擷的含義：web資料採擷是一項綜合性技術，指Web從文檔結構和使用的集合C中發現隱含的模式P，如果將C看做是輸入，P 看做是輸出，那麼Web 挖掘過程就可以看做是從輸入到輸出的一個映射過程。

Web資料採擷的研究物件：是以半結構化和無結構文檔為中心的Web，這些資料沒有統一的模式，資料的內容和表示互相交織，資料內容基本上沒有語義資訊進行描述，僅僅依靠HTML語法對資料進行結構上的描述。當前越來越多的Web 資料都是以資料流程的形式出現的，因此對Web 資料流程挖掘就具有很重要的意義。

目前常用的Web資料採擷演算法：PageRank演算法、HITS演算法、LOGSOM 演算法。這三種演算法提到的使用者都是籠統的用戶，並沒有區分用戶的個體。

Web資料採擷的應用：可以利用Web的海量資料進行分析，收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求資訊、客戶等有關的資訊，集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境資訊和內部經營資訊，並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆，對這些資訊進行分析和處理，以便識別、分析、評價和管理危機。

目前Web 資料採擷面臨著一些問題：使用者的分類問題、網站內容時效性問題，使用者在頁面停留時間問題，頁面的鏈入與鏈出數問題等。

(7)特徵分析

特徵分析的含義：特徵分析是從資料庫中的一組資料中提取出關於這些資料的特徵式，這些特徵式表達了該資料集的總體特徵。

特徵分析的目的(作用)：在於從海量資料中提取出有用資訊，從而提高資料的使用效率。

特徵分析的應用：如行銷人員通過對客戶流失因素的特徵提取，可以得到導致客戶流失的一系列原因和主要特徵，利用這些特徵可以有效地預防客戶的流失。

(8)偏差分析

偏差分析的含義：偏差是資料集中的小比例物件。通常，偏差對象被稱為離群點、例外、野點等。偏差分析就是發現與大部分其他物件不同的物件。

偏差分析的應用：在企業危機管理及其預警中，管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常資訊的發現、分析、識別、評價和預警等方面。而其成因源於不同的類、自然變異、資料測量或收集誤差等。

什麼叫“異常”

(1)Hawkins給出了異常的本質性的定義：異常是資料集中與眾不同的資料，使人懷疑這些資料並非隨機偏差，而是產生于完全不同的機制。

(2)聚類演算法對異常的定義：異常是聚類嵌於其中的背景雜訊。

(3)異常檢測演算法對異常的定義：異常是既不屬於聚類也不屬於背景雜訊的點。他們的行為與正常的行為有很大不同。