您的位置:首頁>科技>正文

「資料」一個資深資料人對資料採擷解讀

“互聯網和金融, 在資料採擷上, 究竟存在什麼樣的區別”。 在對這個問題的摸索和理解過程中, 發現資料採擷本身包含很多層次。

並且模型本身也是存在傳統和時髦之分的。

一、資料採擷的層次

一直想整理下對資料採擷不同層次的理解, 這也是這兩年多的時間裡面, 和很多金融領域、互聯網做資料相關工作的小夥伴, 聊天交流的一些整理和歸納。 大概可以分為四類。

(一)純粹的資料加工

側重於變數加工和預處理, 從源系統或資料倉庫, 對相關資料進行提取、加工、衍生處理, 生成各種業務表。 然後, 以客戶號為主鍵, 把這些業務表整合匯總, 最終可以拉出一張大寬表, 這張寬表就可以稱之為“客戶畫像”。 即, 有關客戶的很多變數和特徵的集合。

在這個階段, 主要的資料加工工具為SQL和SAS base。

(二)傻瓜式的挖掘工具

較為典型的就是SAS EM和clementine, 裡面嵌入很多較為傳統成熟的演算法、模組和節點(例如邏輯回歸、決策樹、SVM、神經網路、KNN、聚類等)。 通過滑鼠的托拉拽, 流程式的節點, 基本上就可以實現你挖掘資料的需求。

傻瓜式操作的優點就是使得資料採擷, 入手非常快, 較為簡單。 但是, 也存在一些缺陷, 即, 使得這個挖掘過程變得有點單調和無趣。

沒辦法批量運算模型, 也沒辦法開發一些個性化的演算法和應用。 用的比較熟練, 並且想要進一步提升的時候, 建議把這兩者拋棄。

(三)較為自由的挖掘工具

較為典型的就是R語言和Python。 這兩個挖掘工具是開源的, 前者是統計學家開發的, 後者是電腦學家開發的。

一方面, 可以有很多成熟的、前沿的演算法包調用, 另外一方面, 還可以根據自己的需求, 對既有的演算法包進行修改調整, 適應自己的分析需求, 較為靈活。 此外, Python在文本、非結構化資料、社會網路方面的處理, 功能比較強大。

(四)演算法拆解和自行開發

一般會利用python、c、c++, 自己重新編寫演算法代碼。 例如, 通過自己的代碼實現邏輯回歸運算過程。 甚至,

根據自己的業務需求和資料特點, 更改其中一些假定和條件, 以便提高模型運算的擬合效果。 尤其, 在生產系統上, 通過C編寫的代碼, 運行速度比較快, 較易部署, 能夠滿足即時的運算需求。

一般來說, 從互聯網的招聘和對技能的需求來說, 一般JD裡面要求了前三種, 這樣的職位會被稱為“建模分析師”。 但是如果增加上了最後一條, 這樣的職位或許就改稱為“演算法工程師”。

二、模型的理解:傳統的和時髦的

據理解, 模型應該包括兩種類型。 一類是傳統的較為成熟的模型, 另外一類是較為時髦有趣的模型。 對於後者, 大家會表現出更多的興趣, 一般是代表著新技術、新方法和新思路。

(一)傳統的模型

傳統的模型, 主要就是為了解決分類(例如決策樹、神經網路、邏輯回歸等)、預測(例如回歸分析、時間序列等)、聚類(kmeans、系譜、密度聚類等)、關聯(無序關聯和有序關聯)這四類問題。

這些都是較為常規和經典的。

(二)時髦有趣的模型

比較有趣、前沿的模型, 大概包括以下幾種類型, 即社會網路分析、文本分析、基於位置的服務(Location-Based Service, LBS)、資料視覺化等。

它們之所以比較時髦, 可能的原因是, 採用比較新穎前沿的分析技術(社會網路、文本分析), 非常貼近實際的應用(LBS), 或者是能夠帶來更好的客戶體驗(資料視覺化)。

(1)社會網路的應用

(2)文本挖掘的應用

文本作為非結構化資料,加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強烈程度。典型的應用,包括搜尋引擎智慧匹配、通過投訴文本判斷客戶情緒、通過輿情監控品牌聲譽、通過涉訴文本判定企業經營風險、通過網路爬蟲抓取產品評論、詞雲展示等。

文本和濕人。關於文本分析,最近朋友圈有篇分享,很有意思,號稱可以讓你瞬間變成濕人。原理很簡單,就是先把《全宋詞》分詞,然後統計頻數前100的詞語。然後你可以隨機湊6個數(1-100),這樣就可以拼湊出兩句詩。比如,隨機寫兩組數字,(2,37,66)和(57,88,33),對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩,即“東風無人黃花落,憔悴今夜風月明”。還真像那麼一回事,有興趣可以玩一玩。

(3)LBS應用

(4)視覺化應用

如果你想讓你的分析和挖掘比較吸引眼球,請儘量往以上四個方面靠攏。

三、互聯網和金融資料採擷的差異

博士後兩年,對銀行領域的資料採擷有些基本的瞭解和認識,但是面對浩瀚的資料領域,也只能算剛剛入門。很多時候,會很好奇互聯網領域,做資料採擷究竟是什麼樣的形態。

很早之前,就曾在知乎上提了個問題,“金融領域的資料採擷和互聯網中的資料採擷,究竟有什麼的差異和不同”。這個問題掛了幾個月,雖有寥寥的回答,但是沒有得到想要的答案。

既然沒人能夠提供想要的答案,那就,根據自己的理解、一些場合的碰壁、以及和一些互聯網資料小夥伴的接觸,試圖歸納和回答下。應該有以下幾個方面的差異。

(一)“分析”和“演算法”

在互聯網中,“分析”和“演算法”,分得非常開,對應著“資料分析師”和“演算法工程師”兩種角色。前者更多側重資料提取、加工、處理、運用成熟的演算法包,開發模型,探索資料中的模式和規律。後者更多的是,自己寫演算法代碼,通過C或python部署到生產系統,即時運算和應用。

在銀行領域,基本上,只能看到第一種角色。資料基本上來源於倉庫系統,然後運用SQL、SAS、R,提取、加工、建模和分析。

(二)資料類型

資料類型,主要包括“結構化”和“非結構化”兩類資料。前者就是傳統的二維表結構。一行一條記錄,一列一個變數。後者包括文本、圖像、音訊、視頻等。

銀行裡面的資料,更多的是結構化資料,也有少量的非結構化資料(投訴文本、貸款審批文本等)。業務部門對非結構化資料的分析需求比較少。因此,在非結構化資料的分析建模方面,稍顯不足。

互聯網,更多的是網路日誌資料,以文本等非結構化資料為主,然後通過一定的工具將非結構化資料轉變為結構化資料,進一步加工和分析。

(三)工具、存儲和架構

互聯網,基本上是免費導向,所以常常選擇開源的工具,例如MySql、R、Python等。常常是基於hadoop的分散式資料獲取、加工、存儲和分析。

商業銀行一般基於成熟的資料倉庫,例如TD,以及一些成熟的資料採擷工具,SAS EG和EM。

(四)應用場景

在應用場景上,兩者之間也存在著非常大的差異。

(1)金融領域

金融領域的資料採擷,不同的細分行業(如銀行和證券),也是存在差別的。

銀行領域的統計建模。銀行內的資料採擷,較為側重統計建模,資料分析物件主要為截面資料,一般包括客戶智慧(CI)、運營智慧(OI)和風險智能(RI)。開發的模型以離線為主,少量模型,例如反欺詐、申請評分,對即時性的要求比較高。

證券領域的量化分析。證券行業的挖掘工作,更加側重量化分析,分析物件更多的是時間序列資料,旨在從大盤指數、波動特點、歷史資料中發現趨勢和機會,進行短期的套利操作。量化分析的即時性要求也比較高,可能是離線運算模型,但是在交易系統部署後,即時運算,捕捉交易事件和交易機會。

(2)互聯網

互聯網的即時計算。互聯網的應用場景,例如推薦引擎、搜尋引擎、廣告優化、文本挖掘(NLP)、反欺詐分析等,很多時候需要將模型部署在生產系統,對即時回應要求比較高,需要保證比較好的客戶體驗。

四、資料採擷在金融領域的典型應用

別人常常會問,在銀行裡面,資料採擷究竟是做什麼的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋。

(一)信用評分

申請評分。當你申請信用卡、消費貸款、經營貸款時,銀行是否會審批通過,發放多大規模的額度?這個判斷很可能就是申請評分模型運算的結果。通過模型計算你的還款能力和還款意願,綜合評定放款額度和利率水準。

行為評分。當你信用卡使用一段時間後,銀行會根據你的刷卡行為和還款記錄,通過行為評分模型,判斷是否給你調整固定額度。

(二)個性化產品推薦

很多時候,你可能會收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財產品。這背後,很可能就是產品回應模型運算的結果。銀行會通過模型,計算你購買某款理財產品的概率,如果概率比價高的話,就會向你推送這款理財產品。

此外,很多時候,不同的客戶,銀行會個性化的推薦不同的產品,很可能就是產品關聯分析模型運算的結果。

(三)個性化廣告展示

登陸商業銀行網站時,通常會有一個廣告banner,banner上會展示若干幅廣告。很多時候,不同的客戶登陸網站,會接觸到不同的廣告,即個性化的廣告推送。一般來說,後臺經過計算,會判斷,你對哪幾款廣告和產品感興趣,最後推送3-5款你最感興趣的產品,從而能夠有效吸引你的注意,促進點擊、轉化和成交。

長按識別二維碼關注我們

(2)文本挖掘的應用

文本作為非結構化資料,加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強烈程度。典型的應用,包括搜尋引擎智慧匹配、通過投訴文本判斷客戶情緒、通過輿情監控品牌聲譽、通過涉訴文本判定企業經營風險、通過網路爬蟲抓取產品評論、詞雲展示等。

文本和濕人。關於文本分析,最近朋友圈有篇分享,很有意思,號稱可以讓你瞬間變成濕人。原理很簡單,就是先把《全宋詞》分詞,然後統計頻數前100的詞語。然後你可以隨機湊6個數(1-100),這樣就可以拼湊出兩句詩。比如,隨機寫兩組數字,(2,37,66)和(57,88,33),對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩,即“東風無人黃花落,憔悴今夜風月明”。還真像那麼一回事,有興趣可以玩一玩。

(3)LBS應用

(4)視覺化應用

如果你想讓你的分析和挖掘比較吸引眼球,請儘量往以上四個方面靠攏。

三、互聯網和金融資料採擷的差異

博士後兩年,對銀行領域的資料採擷有些基本的瞭解和認識,但是面對浩瀚的資料領域,也只能算剛剛入門。很多時候,會很好奇互聯網領域,做資料採擷究竟是什麼樣的形態。

很早之前,就曾在知乎上提了個問題,“金融領域的資料採擷和互聯網中的資料採擷,究竟有什麼的差異和不同”。這個問題掛了幾個月,雖有寥寥的回答,但是沒有得到想要的答案。

既然沒人能夠提供想要的答案,那就,根據自己的理解、一些場合的碰壁、以及和一些互聯網資料小夥伴的接觸,試圖歸納和回答下。應該有以下幾個方面的差異。

(一)“分析”和“演算法”

在互聯網中,“分析”和“演算法”,分得非常開,對應著“資料分析師”和“演算法工程師”兩種角色。前者更多側重資料提取、加工、處理、運用成熟的演算法包,開發模型,探索資料中的模式和規律。後者更多的是,自己寫演算法代碼,通過C或python部署到生產系統,即時運算和應用。

在銀行領域,基本上,只能看到第一種角色。資料基本上來源於倉庫系統,然後運用SQL、SAS、R,提取、加工、建模和分析。

(二)資料類型

資料類型,主要包括“結構化”和“非結構化”兩類資料。前者就是傳統的二維表結構。一行一條記錄,一列一個變數。後者包括文本、圖像、音訊、視頻等。

銀行裡面的資料,更多的是結構化資料,也有少量的非結構化資料(投訴文本、貸款審批文本等)。業務部門對非結構化資料的分析需求比較少。因此,在非結構化資料的分析建模方面,稍顯不足。

互聯網,更多的是網路日誌資料,以文本等非結構化資料為主,然後通過一定的工具將非結構化資料轉變為結構化資料,進一步加工和分析。

(三)工具、存儲和架構

互聯網,基本上是免費導向,所以常常選擇開源的工具,例如MySql、R、Python等。常常是基於hadoop的分散式資料獲取、加工、存儲和分析。

商業銀行一般基於成熟的資料倉庫,例如TD,以及一些成熟的資料採擷工具,SAS EG和EM。

(四)應用場景

在應用場景上,兩者之間也存在著非常大的差異。

(1)金融領域

金融領域的資料採擷,不同的細分行業(如銀行和證券),也是存在差別的。

銀行領域的統計建模。銀行內的資料採擷,較為側重統計建模,資料分析物件主要為截面資料,一般包括客戶智慧(CI)、運營智慧(OI)和風險智能(RI)。開發的模型以離線為主,少量模型,例如反欺詐、申請評分,對即時性的要求比較高。

證券領域的量化分析。證券行業的挖掘工作,更加側重量化分析,分析物件更多的是時間序列資料,旨在從大盤指數、波動特點、歷史資料中發現趨勢和機會,進行短期的套利操作。量化分析的即時性要求也比較高,可能是離線運算模型,但是在交易系統部署後,即時運算,捕捉交易事件和交易機會。

(2)互聯網

互聯網的即時計算。互聯網的應用場景,例如推薦引擎、搜尋引擎、廣告優化、文本挖掘(NLP)、反欺詐分析等,很多時候需要將模型部署在生產系統,對即時回應要求比較高,需要保證比較好的客戶體驗。

四、資料採擷在金融領域的典型應用

別人常常會問,在銀行裡面,資料採擷究竟是做什麼的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋。

(一)信用評分

申請評分。當你申請信用卡、消費貸款、經營貸款時,銀行是否會審批通過,發放多大規模的額度?這個判斷很可能就是申請評分模型運算的結果。通過模型計算你的還款能力和還款意願,綜合評定放款額度和利率水準。

行為評分。當你信用卡使用一段時間後,銀行會根據你的刷卡行為和還款記錄,通過行為評分模型,判斷是否給你調整固定額度。

(二)個性化產品推薦

很多時候,你可能會收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財產品。這背後,很可能就是產品回應模型運算的結果。銀行會通過模型,計算你購買某款理財產品的概率,如果概率比價高的話,就會向你推送這款理財產品。

此外,很多時候,不同的客戶,銀行會個性化的推薦不同的產品,很可能就是產品關聯分析模型運算的結果。

(三)個性化廣告展示

登陸商業銀行網站時,通常會有一個廣告banner,banner上會展示若干幅廣告。很多時候,不同的客戶登陸網站,會接觸到不同的廣告,即個性化的廣告推送。一般來說,後臺經過計算,會判斷,你對哪幾款廣告和產品感興趣,最後推送3-5款你最感興趣的產品,從而能夠有效吸引你的注意,促進點擊、轉化和成交。

長按識別二維碼關注我們

Next Article
喜欢就按个赞吧!!!
点击关闭提示