“互聯網和金融, 在資料採擷上, 究竟存在什麼樣的區別”。 在對這個問題的摸索和理解過程中, 發現資料採擷本身包含很多層次。
一、資料採擷的層次
一直想整理下對資料採擷不同層次的理解, 這也是這兩年多的時間裡面, 和很多金融領域、互聯網做資料相關工作的小夥伴, 聊天交流的一些整理和歸納。 大概可以分為四類。
(一)純粹的資料加工
側重於變數加工和預處理, 從源系統或資料倉庫, 對相關資料進行提取、加工、衍生處理, 生成各種業務表。 然後, 以客戶號為主鍵, 把這些業務表整合匯總, 最終可以拉出一張大寬表, 這張寬表就可以稱之為“客戶畫像”。 即, 有關客戶的很多變數和特徵的集合。
在這個階段, 主要的資料加工工具為SQL和SAS base。
(二)傻瓜式的挖掘工具
較為典型的就是SAS EM和clementine, 裡面嵌入很多較為傳統成熟的演算法、模組和節點(例如邏輯回歸、決策樹、SVM、神經網路、KNN、聚類等)。 通過滑鼠的托拉拽, 流程式的節點, 基本上就可以實現你挖掘資料的需求。
傻瓜式操作的優點就是使得資料採擷, 入手非常快, 較為簡單。 但是, 也存在一些缺陷, 即, 使得這個挖掘過程變得有點單調和無趣。
(三)較為自由的挖掘工具
較為典型的就是R語言和Python。 這兩個挖掘工具是開源的, 前者是統計學家開發的, 後者是電腦學家開發的。
一方面, 可以有很多成熟的、前沿的演算法包調用, 另外一方面, 還可以根據自己的需求, 對既有的演算法包進行修改調整, 適應自己的分析需求, 較為靈活。 此外, Python在文本、非結構化資料、社會網路方面的處理, 功能比較強大。
(四)演算法拆解和自行開發
一般會利用python、c、c++, 自己重新編寫演算法代碼。 例如, 通過自己的代碼實現邏輯回歸運算過程。 甚至,
一般來說, 從互聯網的招聘和對技能的需求來說, 一般JD裡面要求了前三種, 這樣的職位會被稱為“建模分析師”。 但是如果增加上了最後一條, 這樣的職位或許就改稱為“演算法工程師”。
二、模型的理解:傳統的和時髦的
據理解, 模型應該包括兩種類型。 一類是傳統的較為成熟的模型, 另外一類是較為時髦有趣的模型。 對於後者, 大家會表現出更多的興趣, 一般是代表著新技術、新方法和新思路。
(一)傳統的模型
傳統的模型, 主要就是為了解決分類(例如決策樹、神經網路、邏輯回歸等)、預測(例如回歸分析、時間序列等)、聚類(kmeans、系譜、密度聚類等)、關聯(無序關聯和有序關聯)這四類問題。
(二)時髦有趣的模型
比較有趣、前沿的模型, 大概包括以下幾種類型, 即社會網路分析、文本分析、基於位置的服務(Location-Based Service, LBS)、資料視覺化等。
它們之所以比較時髦, 可能的原因是, 採用比較新穎前沿的分析技術(社會網路、文本分析), 非常貼近實際的應用(LBS), 或者是能夠帶來更好的客戶體驗(資料視覺化)。
(1)社會網路的應用
(2)文本挖掘的應用
文本作為非結構化資料,加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強烈程度。典型的應用,包括搜尋引擎智慧匹配、通過投訴文本判斷客戶情緒、通過輿情監控品牌聲譽、通過涉訴文本判定企業經營風險、通過網路爬蟲抓取產品評論、詞雲展示等。
文本和濕人。關於文本分析,最近朋友圈有篇分享,很有意思,號稱可以讓你瞬間變成濕人。原理很簡單,就是先把《全宋詞》分詞,然後統計頻數前100的詞語。然後你可以隨機湊6個數(1-100),這樣就可以拼湊出兩句詩。比如,隨機寫兩組數字,(2,37,66)和(57,88,33),對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩,即“東風無人黃花落,憔悴今夜風月明”。還真像那麼一回事,有興趣可以玩一玩。
(3)LBS應用
(4)視覺化應用
如果你想讓你的分析和挖掘比較吸引眼球,請儘量往以上四個方面靠攏。
三、互聯網和金融資料採擷的差異
博士後兩年,對銀行領域的資料採擷有些基本的瞭解和認識,但是面對浩瀚的資料領域,也只能算剛剛入門。很多時候,會很好奇互聯網領域,做資料採擷究竟是什麼樣的形態。
很早之前,就曾在知乎上提了個問題,“金融領域的資料採擷和互聯網中的資料採擷,究竟有什麼的差異和不同”。這個問題掛了幾個月,雖有寥寥的回答,但是沒有得到想要的答案。
既然沒人能夠提供想要的答案,那就,根據自己的理解、一些場合的碰壁、以及和一些互聯網資料小夥伴的接觸,試圖歸納和回答下。應該有以下幾個方面的差異。
(一)“分析”和“演算法”
在互聯網中,“分析”和“演算法”,分得非常開,對應著“資料分析師”和“演算法工程師”兩種角色。前者更多側重資料提取、加工、處理、運用成熟的演算法包,開發模型,探索資料中的模式和規律。後者更多的是,自己寫演算法代碼,通過C或python部署到生產系統,即時運算和應用。
在銀行領域,基本上,只能看到第一種角色。資料基本上來源於倉庫系統,然後運用SQL、SAS、R,提取、加工、建模和分析。
(二)資料類型
資料類型,主要包括“結構化”和“非結構化”兩類資料。前者就是傳統的二維表結構。一行一條記錄,一列一個變數。後者包括文本、圖像、音訊、視頻等。
銀行裡面的資料,更多的是結構化資料,也有少量的非結構化資料(投訴文本、貸款審批文本等)。業務部門對非結構化資料的分析需求比較少。因此,在非結構化資料的分析建模方面,稍顯不足。
互聯網,更多的是網路日誌資料,以文本等非結構化資料為主,然後通過一定的工具將非結構化資料轉變為結構化資料,進一步加工和分析。
(三)工具、存儲和架構
互聯網,基本上是免費導向,所以常常選擇開源的工具,例如MySql、R、Python等。常常是基於hadoop的分散式資料獲取、加工、存儲和分析。
商業銀行一般基於成熟的資料倉庫,例如TD,以及一些成熟的資料採擷工具,SAS EG和EM。
(四)應用場景
在應用場景上,兩者之間也存在著非常大的差異。
(1)金融領域
金融領域的資料採擷,不同的細分行業(如銀行和證券),也是存在差別的。
銀行領域的統計建模。銀行內的資料採擷,較為側重統計建模,資料分析物件主要為截面資料,一般包括客戶智慧(CI)、運營智慧(OI)和風險智能(RI)。開發的模型以離線為主,少量模型,例如反欺詐、申請評分,對即時性的要求比較高。
證券領域的量化分析。證券行業的挖掘工作,更加側重量化分析,分析物件更多的是時間序列資料,旨在從大盤指數、波動特點、歷史資料中發現趨勢和機會,進行短期的套利操作。量化分析的即時性要求也比較高,可能是離線運算模型,但是在交易系統部署後,即時運算,捕捉交易事件和交易機會。
(2)互聯網
互聯網的即時計算。互聯網的應用場景,例如推薦引擎、搜尋引擎、廣告優化、文本挖掘(NLP)、反欺詐分析等,很多時候需要將模型部署在生產系統,對即時回應要求比較高,需要保證比較好的客戶體驗。
四、資料採擷在金融領域的典型應用
別人常常會問,在銀行裡面,資料採擷究竟是做什麼的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋。
(一)信用評分
申請評分。當你申請信用卡、消費貸款、經營貸款時,銀行是否會審批通過,發放多大規模的額度?這個判斷很可能就是申請評分模型運算的結果。通過模型計算你的還款能力和還款意願,綜合評定放款額度和利率水準。
行為評分。當你信用卡使用一段時間後,銀行會根據你的刷卡行為和還款記錄,通過行為評分模型,判斷是否給你調整固定額度。
(二)個性化產品推薦
很多時候,你可能會收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財產品。這背後,很可能就是產品回應模型運算的結果。銀行會通過模型,計算你購買某款理財產品的概率,如果概率比價高的話,就會向你推送這款理財產品。
此外,很多時候,不同的客戶,銀行會個性化的推薦不同的產品,很可能就是產品關聯分析模型運算的結果。
(三)個性化廣告展示
登陸商業銀行網站時,通常會有一個廣告banner,banner上會展示若干幅廣告。很多時候,不同的客戶登陸網站,會接觸到不同的廣告,即個性化的廣告推送。一般來說,後臺經過計算,會判斷,你對哪幾款廣告和產品感興趣,最後推送3-5款你最感興趣的產品,從而能夠有效吸引你的注意,促進點擊、轉化和成交。
長按識別二維碼關注我們
(2)文本挖掘的應用
文本作為非結構化資料,加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強烈程度。典型的應用,包括搜尋引擎智慧匹配、通過投訴文本判斷客戶情緒、通過輿情監控品牌聲譽、通過涉訴文本判定企業經營風險、通過網路爬蟲抓取產品評論、詞雲展示等。
文本和濕人。關於文本分析,最近朋友圈有篇分享,很有意思,號稱可以讓你瞬間變成濕人。原理很簡單,就是先把《全宋詞》分詞,然後統計頻數前100的詞語。然後你可以隨機湊6個數(1-100),這樣就可以拼湊出兩句詩。比如,隨機寫兩組數字,(2,37,66)和(57,88,33),對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩,即“東風無人黃花落,憔悴今夜風月明”。還真像那麼一回事,有興趣可以玩一玩。
(3)LBS應用
(4)視覺化應用
如果你想讓你的分析和挖掘比較吸引眼球,請儘量往以上四個方面靠攏。
三、互聯網和金融資料採擷的差異
博士後兩年,對銀行領域的資料採擷有些基本的瞭解和認識,但是面對浩瀚的資料領域,也只能算剛剛入門。很多時候,會很好奇互聯網領域,做資料採擷究竟是什麼樣的形態。
很早之前,就曾在知乎上提了個問題,“金融領域的資料採擷和互聯網中的資料採擷,究竟有什麼的差異和不同”。這個問題掛了幾個月,雖有寥寥的回答,但是沒有得到想要的答案。
既然沒人能夠提供想要的答案,那就,根據自己的理解、一些場合的碰壁、以及和一些互聯網資料小夥伴的接觸,試圖歸納和回答下。應該有以下幾個方面的差異。
(一)“分析”和“演算法”
在互聯網中,“分析”和“演算法”,分得非常開,對應著“資料分析師”和“演算法工程師”兩種角色。前者更多側重資料提取、加工、處理、運用成熟的演算法包,開發模型,探索資料中的模式和規律。後者更多的是,自己寫演算法代碼,通過C或python部署到生產系統,即時運算和應用。
在銀行領域,基本上,只能看到第一種角色。資料基本上來源於倉庫系統,然後運用SQL、SAS、R,提取、加工、建模和分析。
(二)資料類型
資料類型,主要包括“結構化”和“非結構化”兩類資料。前者就是傳統的二維表結構。一行一條記錄,一列一個變數。後者包括文本、圖像、音訊、視頻等。
銀行裡面的資料,更多的是結構化資料,也有少量的非結構化資料(投訴文本、貸款審批文本等)。業務部門對非結構化資料的分析需求比較少。因此,在非結構化資料的分析建模方面,稍顯不足。
互聯網,更多的是網路日誌資料,以文本等非結構化資料為主,然後通過一定的工具將非結構化資料轉變為結構化資料,進一步加工和分析。
(三)工具、存儲和架構
互聯網,基本上是免費導向,所以常常選擇開源的工具,例如MySql、R、Python等。常常是基於hadoop的分散式資料獲取、加工、存儲和分析。
商業銀行一般基於成熟的資料倉庫,例如TD,以及一些成熟的資料採擷工具,SAS EG和EM。
(四)應用場景
在應用場景上,兩者之間也存在著非常大的差異。
(1)金融領域
金融領域的資料採擷,不同的細分行業(如銀行和證券),也是存在差別的。
銀行領域的統計建模。銀行內的資料採擷,較為側重統計建模,資料分析物件主要為截面資料,一般包括客戶智慧(CI)、運營智慧(OI)和風險智能(RI)。開發的模型以離線為主,少量模型,例如反欺詐、申請評分,對即時性的要求比較高。
證券領域的量化分析。證券行業的挖掘工作,更加側重量化分析,分析物件更多的是時間序列資料,旨在從大盤指數、波動特點、歷史資料中發現趨勢和機會,進行短期的套利操作。量化分析的即時性要求也比較高,可能是離線運算模型,但是在交易系統部署後,即時運算,捕捉交易事件和交易機會。
(2)互聯網
互聯網的即時計算。互聯網的應用場景,例如推薦引擎、搜尋引擎、廣告優化、文本挖掘(NLP)、反欺詐分析等,很多時候需要將模型部署在生產系統,對即時回應要求比較高,需要保證比較好的客戶體驗。
四、資料採擷在金融領域的典型應用
別人常常會問,在銀行裡面,資料採擷究竟是做什麼的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋。
(一)信用評分
申請評分。當你申請信用卡、消費貸款、經營貸款時,銀行是否會審批通過,發放多大規模的額度?這個判斷很可能就是申請評分模型運算的結果。通過模型計算你的還款能力和還款意願,綜合評定放款額度和利率水準。
行為評分。當你信用卡使用一段時間後,銀行會根據你的刷卡行為和還款記錄,通過行為評分模型,判斷是否給你調整固定額度。
(二)個性化產品推薦
很多時候,你可能會收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財產品。這背後,很可能就是產品回應模型運算的結果。銀行會通過模型,計算你購買某款理財產品的概率,如果概率比價高的話,就會向你推送這款理財產品。
此外,很多時候,不同的客戶,銀行會個性化的推薦不同的產品,很可能就是產品關聯分析模型運算的結果。
(三)個性化廣告展示
登陸商業銀行網站時,通常會有一個廣告banner,banner上會展示若干幅廣告。很多時候,不同的客戶登陸網站,會接觸到不同的廣告,即個性化的廣告推送。一般來說,後臺經過計算,會判斷,你對哪幾款廣告和產品感興趣,最後推送3-5款你最感興趣的產品,從而能夠有效吸引你的注意,促進點擊、轉化和成交。
長按識別二維碼關注我們