「資料」一個資深資料人對資料採擷解讀

“互聯網和金融，在資料採擷上，究竟存在什麼樣的區別”。在對這個問題的摸索和理解過程中，發現資料採擷本身包含很多層次。

並且模型本身也是存在傳統和時髦之分的。

一、資料採擷的層次

一直想整理下對資料採擷不同層次的理解，這也是這兩年多的時間裡面，和很多金融領域、互聯網做資料相關工作的小夥伴，聊天交流的一些整理和歸納。大概可以分為四類。

(一)純粹的資料加工

側重於變數加工和預處理，從源系統或資料倉庫，對相關資料進行提取、加工、衍生處理，生成各種業務表。然後，以客戶號為主鍵，把這些業務表整合匯總，最終可以拉出一張大寬表，這張寬表就可以稱之為“客戶畫像”。即，有關客戶的很多變數和特徵的集合。

在這個階段，主要的資料加工工具為SQL和SAS base。

(二)傻瓜式的挖掘工具

較為典型的就是SAS EM和clementine，裡面嵌入很多較為傳統成熟的演算法、模組和節點(例如邏輯回歸、決策樹、SVM、神經網路、KNN、聚類等)。通過滑鼠的托拉拽，流程式的節點，基本上就可以實現你挖掘資料的需求。

傻瓜式操作的優點就是使得資料採擷，入手非常快，較為簡單。但是，也存在一些缺陷，即，使得這個挖掘過程變得有點單調和無趣。

沒辦法批量運算模型，也沒辦法開發一些個性化的演算法和應用。用的比較熟練，並且想要進一步提升的時候，建議把這兩者拋棄。

(三)較為自由的挖掘工具

較為典型的就是R語言和Python。這兩個挖掘工具是開源的，前者是統計學家開發的，後者是電腦學家開發的。

一方面，可以有很多成熟的、前沿的演算法包調用，另外一方面，還可以根據自己的需求，對既有的演算法包進行修改調整，適應自己的分析需求，較為靈活。此外， Python在文本、非結構化資料、社會網路方面的處理，功能比較強大。

(四)演算法拆解和自行開發

一般會利用python、c、c++，自己重新編寫演算法代碼。例如，通過自己的代碼實現邏輯回歸運算過程。甚至，

根據自己的業務需求和資料特點，更改其中一些假定和條件，以便提高模型運算的擬合效果。尤其，在生產系統上，通過C編寫的代碼，運行速度比較快，較易部署，能夠滿足即時的運算需求。

一般來說，從互聯網的招聘和對技能的需求來說，一般JD裡面要求了前三種，這樣的職位會被稱為“建模分析師”。但是如果增加上了最後一條，這樣的職位或許就改稱為“演算法工程師”。

二、模型的理解：傳統的和時髦的

據理解，模型應該包括兩種類型。一類是傳統的較為成熟的模型，另外一類是較為時髦有趣的模型。對於後者，大家會表現出更多的興趣，一般是代表著新技術、新方法和新思路。

(一)傳統的模型

傳統的模型，主要就是為了解決分類(例如決策樹、神經網路、邏輯回歸等)、預測(例如回歸分析、時間序列等)、聚類(kmeans、系譜、密度聚類等)、關聯(無序關聯和有序關聯)這四類問題。

這些都是較為常規和經典的。

(二)時髦有趣的模型

比較有趣、前沿的模型，大概包括以下幾種類型，即社會網路分析、文本分析、基於位置的服務(Location-Based Service， LBS)、資料視覺化等。

它們之所以比較時髦，可能的原因是，採用比較新穎前沿的分析技術(社會網路、文本分析)，非常貼近實際的應用(LBS)，或者是能夠帶來更好的客戶體驗(資料視覺化)。

(1)社會網路的應用

(2)文本挖掘的應用

文本作為非結構化資料，加工分析存在一定的難度，包括如何分詞、如何判斷多義詞、如何判斷詞性，如何判斷情緒的強烈程度。典型的應用，包括搜尋引擎智慧匹配、通過投訴文本判斷客戶情緒、通過輿情監控品牌聲譽、通過涉訴文本判定企業經營風險、通過網路爬蟲抓取產品評論、詞雲展示等。

文本和濕人。關於文本分析，最近朋友圈有篇分享，很有意思，號稱可以讓你瞬間變成濕人。原理很簡單，就是先把《全宋詞》分詞，然後統計頻數前100的詞語。然後你可以隨機湊6個數(1-100)，這樣就可以拼湊出兩句詩。比如，隨機寫兩組數字，(2,37,66)和(57,88,33)，對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩，即“東風無人黃花落，憔悴今夜風月明”。還真像那麼一回事，有興趣可以玩一玩。

(3)LBS應用

(4)視覺化應用

如果你想讓你的分析和挖掘比較吸引眼球，請儘量往以上四個方面靠攏。

三、互聯網和金融資料採擷的差異

博士後兩年，對銀行領域的資料採擷有些基本的瞭解和認識，但是面對浩瀚的資料領域，也只能算剛剛入門。很多時候，會很好奇互聯網領域，做資料採擷究竟是什麼樣的形態。

很早之前，就曾在知乎上提了個問題，“金融領域的資料採擷和互聯網中的資料採擷，究竟有什麼的差異和不同”。這個問題掛了幾個月，雖有寥寥的回答，但是沒有得到想要的答案。

既然沒人能夠提供想要的答案，那就，根據自己的理解、一些場合的碰壁、以及和一些互聯網資料小夥伴的接觸，試圖歸納和回答下。應該有以下幾個方面的差異。

(一)“分析”和“演算法”

在互聯網中，“分析”和“演算法”，分得非常開，對應著“資料分析師”和“演算法工程師”兩種角色。前者更多側重資料提取、加工、處理、運用成熟的演算法包，開發模型，探索資料中的模式和規律。後者更多的是，自己寫演算法代碼，通過C或python部署到生產系統，即時運算和應用。

在銀行領域，基本上，只能看到第一種角色。資料基本上來源於倉庫系統，然後運用SQL、SAS、R，提取、加工、建模和分析。

(二)資料類型

資料類型，主要包括“結構化”和“非結構化”兩類資料。前者就是傳統的二維表結構。一行一條記錄，一列一個變數。後者包括文本、圖像、音訊、視頻等。

銀行裡面的資料，更多的是結構化資料，也有少量的非結構化資料(投訴文本、貸款審批文本等)。業務部門對非結構化資料的分析需求比較少。因此，在非結構化資料的分析建模方面，稍顯不足。

互聯網，更多的是網路日誌資料，以文本等非結構化資料為主，然後通過一定的工具將非結構化資料轉變為結構化資料，進一步加工和分析。

(三)工具、存儲和架構

互聯網，基本上是免費導向，所以常常選擇開源的工具，例如MySql、R、Python等。常常是基於hadoop的分散式資料獲取、加工、存儲和分析。

商業銀行一般基於成熟的資料倉庫，例如TD，以及一些成熟的資料採擷工具，SAS EG和EM。

(四)應用場景

在應用場景上，兩者之間也存在著非常大的差異。

(1)金融領域

金融領域的資料採擷，不同的細分行業(如銀行和證券)，也是存在差別的。

銀行領域的統計建模。銀行內的資料採擷，較為側重統計建模，資料分析物件主要為截面資料，一般包括客戶智慧(CI)、運營智慧(OI)和風險智能(RI)。開發的模型以離線為主，少量模型，例如反欺詐、申請評分，對即時性的要求比較高。

證券領域的量化分析。證券行業的挖掘工作，更加側重量化分析，分析物件更多的是時間序列資料，旨在從大盤指數、波動特點、歷史資料中發現趨勢和機會，進行短期的套利操作。量化分析的即時性要求也比較高，可能是離線運算模型，但是在交易系統部署後，即時運算，捕捉交易事件和交易機會。

(2)互聯網

互聯網的即時計算。互聯網的應用場景，例如推薦引擎、搜尋引擎、廣告優化、文本挖掘(NLP)、反欺詐分析等，很多時候需要將模型部署在生產系統，對即時回應要求比較高，需要保證比較好的客戶體驗。

四、資料採擷在金融領域的典型應用

別人常常會問，在銀行裡面，資料採擷究竟是做什麼的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋。

(一)信用評分

申請評分。當你申請信用卡、消費貸款、經營貸款時，銀行是否會審批通過，發放多大規模的額度?這個判斷很可能就是申請評分模型運算的結果。通過模型計算你的還款能力和還款意願，綜合評定放款額度和利率水準。

行為評分。當你信用卡使用一段時間後，銀行會根據你的刷卡行為和還款記錄，通過行為評分模型，判斷是否給你調整固定額度。

(二)個性化產品推薦

很多時候，你可能會收到銀行推送的短信或者接到銀行坐席的外呼，比如，向你推薦某款理財產品。這背後，很可能就是產品回應模型運算的結果。銀行會通過模型，計算你購買某款理財產品的概率，如果概率比價高的話，就會向你推送這款理財產品。

此外，很多時候，不同的客戶，銀行會個性化的推薦不同的產品，很可能就是產品關聯分析模型運算的結果。

(三)個性化廣告展示

登陸商業銀行網站時，通常會有一個廣告banner，banner上會展示若干幅廣告。很多時候，不同的客戶登陸網站，會接觸到不同的廣告，即個性化的廣告推送。一般來說，後臺經過計算，會判斷，你對哪幾款廣告和產品感興趣，最後推送3-5款你最感興趣的產品，從而能夠有效吸引你的注意，促進點擊、轉化和成交。

長按識別二維碼關注我們