字裡行間都是情——股市情緒的文本分析法

情緒是股票市場裡最清晰同時又是最虛無縹緲的名詞，我們總能在各種各樣的事件之後觀察到情緒發酵帶來的各種衝擊，包括資產價格的劇烈波動和從眾的羊群效應，但我們同時又很難用一個具體的指標，來描述什麼是市場中的情緒，以及情緒究竟是怎樣影響市場的。

在經典的金融理論中，理性投資者不存在情緒，他們對未來的預測是無偏的，因此相對地，在金融市場中，我們可以將情緒定義為對於未來股票投資的收益過於樂觀或者過於悲觀的有偏估計。這個理論是由De Long等人在1990年建立的DSSW噪音交易者模型，

從理論上證明，過度樂觀的情緒化投資者傾向于過度買入股票，導致資產價格上漲以及泡沫破裂帶來的後續崩潰。

最早的情緒量化指標的測度是用市場交易資料進行的，比如用封閉式基金的折價數、換手率等，不過這些資料對於反映投資者的情緒來說較為間接，

但是在過去的技術條件和資料條件下，間接指標的量化已經是最好的手段了。此後很多研究者也對此做出了改進，希望採用更為直接的手段來獲悉投資者的觀點，比如電話訪談或者非金融市場的資料（比如天氣影響心情啥的），但是這些資料的可信度並不充分。

隨著互聯網和電腦技術的進步，近年來通過文本資料分析來進行股票市場情緒成為常見和常用的方法。互聯網的存在可以為這類方法提供足夠多的文本大資料（比如新聞、自媒體等等），相較于傳統方法，這類文本資料包含的情緒資訊更豐富，覆蓋面也更廣，很多炒股軟體自己也提供了所謂的股票情緒提示，

通常這些指數是他們是通過分析師預測的資料或者股票的一些交易資料得到的。但是這也存在一個問題，由於文本內容都是非標準化的，那麼如何將文本中的情緒內容準確的提取和衡量出來，就是這種方法面對的最核心的問題。比如常見的文本轉化的方法是“文字包（words of bag）”技術，即在不影響詞彙順序的前提下，把文本轉化為一個文字為行、出現頻數為列的矩陣，進而基於字典法進行文本分析。下面我們可以將常見的幾種方法進行一個簡要的介紹：

詞彙分類字典法

這種方法需要預先人工依據詞彙的含義，對詞彙進行定義和分類，研究者可以依據某一類別的詞彙出現的總次數除以文本總字數，來判斷這一文本的情緒導向，

積極詞彙占比較高的文本意味著樂觀情緒，而消極詞彙占比較高的文本意味著消極情緒。很多研究都發現，媒體報導中出現更多的積極文本時，未來較短時間（比如一周）內的股市會有比較向好的表現，對於個股來說也有類似的效應。不過這個方法的一個重要前提是，如何合理地進行詞彙庫的建立和分類，很多研究會基於自己研究的需求來自行設計和編制，當然這就難以避免存在研究者的主觀性問題以及詞彙的遺漏問題。目前學界已經建立了一些公開的詞彙庫字典，比如著名的洛克倫與麥克唐納字典（Loughran and McDonald Dictionary，詳情可見參考文獻裡的paper）就提供了六個類別超過2600個詞彙來進行情緒判斷，很多研究者會考慮直接使用這類現成的詞庫來自行構建情緒指數。

文本詞彙加權法

從文本學角度來說，很多詞彙在一篇文本中出現的次數不多，大多數經常重複的詞彙卻並不重要，但是基於字典對高頻詞彙的定義卻會影響我們對文本含義的判斷，因此很多研究者不僅僅會對詞彙和頻數建立矩陣，還會在之前對詞彙數量進行標準化處理，因為文本本身的長度也會影響我們的判斷，尤其是在使用前一種方法的時候。所以很多研究者會對詞彙進行加權處理，比如對於情感強烈的詞彙，他們會賦予比較高的權重，再進行統計。文本詞彙加權法和前述的字典法目前在很多研究中會同時採用，將加權法作為字典法的一個詞頻統計的有效補充。

樸素貝葉斯方法

這類方法就是目前大熱的機器學習方法，並且在很多金融和會計研究中得到了應用。這一方法在給定資料集的基礎上，這一方法使電腦學習該資料集中單詞與其所屬類別的對應關係，然後依據這一關係對其他文本進行分類，實質上就是計算一個文本屬於某個類別的後驗概率，然後將文本歸入概率最大的那個類別。這個方法的好處在於，貝葉斯方法本身已經在其他領域中得到了極大的發展，可以隨插即用，對於大資料來說有著天然的適用性，並且機器訓練的方法可以在後期避免前述方法中研究者的主觀傾向問題，儘量降低文本分析的誤差。但是這一問題還是會存在訓練集的設定問題（也就是根本上的主觀性），目前看來訓練集設定並沒有一個統一的標準，這樣類似研究其實從根源上就缺乏可以相互印證的基礎。

文本特徵方法

前述方法主要是從詞頻的角度來進行文本判斷的，在文本量足夠和字典設定合理的情況下，我們能夠有比較大的把握對文本情緒進行判定。但是文本寫作是複雜的，一些俗語、雙關、隱晦的說法對於文字包方法來說，無疑是一種干擾。因此也有許多研究者試圖通過文本的邏輯結構來進行文本情緒的分析。比較有代表性的方法是文本可讀性指標，這個方法的主要應用物件是企業報表，因為很多報表之所以寫得晦澀是為了掩蓋企業出現的問題，所以Li等人就建立過迷霧指數（fog index）來進行分析，他們認為報表中句子的長度和單詞複雜度可以衡量報表的可讀性，並發現提供可讀性低報表的企業其實經營能力也比較堪憂；還有一個有趣的方法是比較文本相似度，Huang等人利用上市公司發佈盈利資訊後分析師發佈的報告，分析這些報告和盈利資訊的相似度，如果分析師關注的問題和公司公告關係不大，那麼就說明企業很可能存在問題。這些方法可以應用在對股票分析討論內容的分析和比對之上，已經有研究證實，不同行業特徵的股票存在不同的文本特徵。

目前大多數對投資者情緒的文本研究內容都集中在企業的財務報表和新聞報導上，但是近年來文本挖掘範圍越來越廣，比如許多股票類BBS的內容都已經成為研究的物件，這對於研究廣度的拓展無疑很有幫助。但是另一方面，類似文本的判定方式在文化上可能存在系統上的差異和表達方式上的差異，新聞審查、資訊披露規則等問題也會對文本情緒判斷造成影響，這些都是未來這一方法應用所應當考慮的問題。

【參考文獻】

De Long J B, Shleifer A, Summers L H, et al. Noise Trader Risk in Financial Markets[J]. Journal of Political Economy, 1990, 98(4):703-738.

Huang A, Seuntjens E, Vankelecom H, et al. Analyst Information Discovery and Interpretation Roles: A Topic Modeling Approach[J]. Social Science Electronic Publishing, 2015, volume 28(3):343-356.

Li F. The Information Content of Forward-Looking Statements in Corporate Filings—A Naïve Bayesian Machine Learning Approach[J]. Journal of Accounting Research, 2010, 48(5):1049–1102.

Loughran T, Mcdonald B. When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10‐Ks[J]. Journal of Finance, 2011, 66(1):35-65.

風險管理工具 / 量化投資知識 / 金融大講堂——"有金有險"

（歡迎金融機構從業的朋友申請BAR系統的試用）