情緒是股票市場裡最清晰同時又是最虛無縹緲的名詞, 我們總能在各種各樣的事件之後觀察到情緒發酵帶來的各種衝擊, 包括資產價格的劇烈波動和從眾的羊群效應, 但我們同時又很難用一個具體的指標, 來描述什麼是市場中的情緒, 以及情緒究竟是怎樣影響市場的。
在經典的金融理論中, 理性投資者不存在情緒, 他們對未來的預測是無偏的, 因此相對地, 在金融市場中, 我們可以將情緒定義為對於未來股票投資的收益過於樂觀或者過於悲觀的有偏估計。 這個理論是由De Long等人在1990年建立的DSSW噪音交易者模型,
最早的情緒量化指標的測度是用市場交易資料進行的, 比如用封閉式基金的折價數、換手率等, 不過這些資料對於反映投資者的情緒來說較為間接,
隨著互聯網和電腦技術的進步, 近年來通過文本資料分析來進行股票市場情緒成為常見和常用的方法。 互聯網的存在可以為這類方法提供足夠多的文本大資料(比如新聞、自媒體等等), 相較于傳統方法, 這類文本資料包含的情緒資訊更豐富, 覆蓋面也更廣, 很多炒股軟體自己也提供了所謂的股票情緒提示,
詞彙分類字典法
這種方法需要預先人工依據詞彙的含義, 對詞彙進行定義和分類, 研究者可以依據某一類別的詞彙出現的總次數除以文本總字數, 來判斷這一文本的情緒導向,
文本詞彙加權法
從文本學角度來說, 很多詞彙在一篇文本中出現的次數不多, 大多數經常重複的詞彙卻並不重要, 但是基於字典對高頻詞彙的定義卻會影響我們對文本含義的判斷, 因此很多研究者不僅僅會對詞彙和頻數建立矩陣, 還會在之前對詞彙數量進行標準化處理, 因為文本本身的長度也會影響我們的判斷, 尤其是在使用前一種方法的時候。 所以很多研究者會對詞彙進行加權處理, 比如對於情感強烈的詞彙, 他們會賦予比較高的權重, 再進行統計。 文本詞彙加權法和前述的字典法目前在很多研究中會同時採用, 將加權法作為字典法的一個詞頻統計的有效補充。
樸素貝葉斯方法
這類方法就是目前大熱的機器學習方法,並且在很多金融和會計研究中得到了應用。這一方法在給定資料集的基礎上,這一方法使電腦學習該資料集中單詞與其所屬類別的對應關係,然後依據這一關係對其他文本進行分類,實質上就是計算一個文本屬於某個類別的後驗概率,然後將文本歸入概率最大的那個類別。這個方法的好處在於,貝葉斯方法本身已經在其他領域中得到了極大的發展,可以隨插即用,對於大資料來說有著天然的適用性,並且機器訓練的方法可以在後期避免前述方法中研究者的主觀傾向問題,儘量降低文本分析的誤差。但是這一問題還是會存在訓練集的設定問題(也就是根本上的主觀性),目前看來訓練集設定並沒有一個統一的標準,這樣類似研究其實從根源上就缺乏可以相互印證的基礎。
文本特徵方法
前述方法主要是從詞頻的角度來進行文本判斷的,在文本量足夠和字典設定合理的情況下,我們能夠有比較大的把握對文本情緒進行判定。但是文本寫作是複雜的,一些俗語、雙關、隱晦的說法對於文字包方法來說,無疑是一種干擾。因此也有許多研究者試圖通過文本的邏輯結構來進行文本情緒的分析。比較有代表性的方法是文本可讀性指標,這個方法的主要應用物件是企業報表,因為很多報表之所以寫得晦澀是為了掩蓋企業出現的問題,所以Li等人就建立過迷霧指數(fog index)來進行分析,他們認為報表中句子的長度和單詞複雜度可以衡量報表的可讀性,並發現提供可讀性低報表的企業其實經營能力也比較堪憂;還有一個有趣的方法是比較文本相似度,Huang等人利用上市公司發佈盈利資訊後分析師發佈的報告,分析這些報告和盈利資訊的相似度,如果分析師關注的問題和公司公告關係不大,那麼就說明企業很可能存在問題。這些方法可以應用在對股票分析討論內容的分析和比對之上,已經有研究證實,不同行業特徵的股票存在不同的文本特徵。
目前大多數對投資者情緒的文本研究內容都集中在企業的財務報表和新聞報導上,但是近年來文本挖掘範圍越來越廣,比如許多股票類BBS的內容都已經成為研究的物件,這對於研究廣度的拓展無疑很有幫助。但是另一方面,類似文本的判定方式在文化上可能存在系統上的差異和表達方式上的差異,新聞審查、資訊披露規則等問題也會對文本情緒判斷造成影響,這些都是未來這一方法應用所應當考慮的問題。
【參考文獻】
De Long J B, Shleifer A, Summers L H, et al. Noise Trader Risk in Financial Markets[J]. Journal of Political Economy, 1990, 98(4):703-738.
Huang A, Seuntjens E, Vankelecom H, et al. Analyst Information Discovery and Interpretation Roles: A Topic Modeling Approach[J]. Social Science Electronic Publishing, 2015, volume 28(3):343-356.
Li F. The Information Content of Forward-Looking Statements in Corporate Filings—A Naïve Bayesian Machine Learning Approach[J]. Journal of Accounting Research, 2010, 48(5):1049–1102.
Loughran T, Mcdonald B. When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10‐Ks[J]. Journal of Finance, 2011, 66(1):35-65.
風險管理工具 / 量化投資知識 / 金融大講堂——"有金有險"
(歡迎金融機構從業的朋友申請BAR系統的試用)
樸素貝葉斯方法
這類方法就是目前大熱的機器學習方法,並且在很多金融和會計研究中得到了應用。這一方法在給定資料集的基礎上,這一方法使電腦學習該資料集中單詞與其所屬類別的對應關係,然後依據這一關係對其他文本進行分類,實質上就是計算一個文本屬於某個類別的後驗概率,然後將文本歸入概率最大的那個類別。這個方法的好處在於,貝葉斯方法本身已經在其他領域中得到了極大的發展,可以隨插即用,對於大資料來說有著天然的適用性,並且機器訓練的方法可以在後期避免前述方法中研究者的主觀傾向問題,儘量降低文本分析的誤差。但是這一問題還是會存在訓練集的設定問題(也就是根本上的主觀性),目前看來訓練集設定並沒有一個統一的標準,這樣類似研究其實從根源上就缺乏可以相互印證的基礎。
文本特徵方法
前述方法主要是從詞頻的角度來進行文本判斷的,在文本量足夠和字典設定合理的情況下,我們能夠有比較大的把握對文本情緒進行判定。但是文本寫作是複雜的,一些俗語、雙關、隱晦的說法對於文字包方法來說,無疑是一種干擾。因此也有許多研究者試圖通過文本的邏輯結構來進行文本情緒的分析。比較有代表性的方法是文本可讀性指標,這個方法的主要應用物件是企業報表,因為很多報表之所以寫得晦澀是為了掩蓋企業出現的問題,所以Li等人就建立過迷霧指數(fog index)來進行分析,他們認為報表中句子的長度和單詞複雜度可以衡量報表的可讀性,並發現提供可讀性低報表的企業其實經營能力也比較堪憂;還有一個有趣的方法是比較文本相似度,Huang等人利用上市公司發佈盈利資訊後分析師發佈的報告,分析這些報告和盈利資訊的相似度,如果分析師關注的問題和公司公告關係不大,那麼就說明企業很可能存在問題。這些方法可以應用在對股票分析討論內容的分析和比對之上,已經有研究證實,不同行業特徵的股票存在不同的文本特徵。
目前大多數對投資者情緒的文本研究內容都集中在企業的財務報表和新聞報導上,但是近年來文本挖掘範圍越來越廣,比如許多股票類BBS的內容都已經成為研究的物件,這對於研究廣度的拓展無疑很有幫助。但是另一方面,類似文本的判定方式在文化上可能存在系統上的差異和表達方式上的差異,新聞審查、資訊披露規則等問題也會對文本情緒判斷造成影響,這些都是未來這一方法應用所應當考慮的問題。
【參考文獻】
De Long J B, Shleifer A, Summers L H, et al. Noise Trader Risk in Financial Markets[J]. Journal of Political Economy, 1990, 98(4):703-738.
Huang A, Seuntjens E, Vankelecom H, et al. Analyst Information Discovery and Interpretation Roles: A Topic Modeling Approach[J]. Social Science Electronic Publishing, 2015, volume 28(3):343-356.
Li F. The Information Content of Forward-Looking Statements in Corporate Filings—A Naïve Bayesian Machine Learning Approach[J]. Journal of Accounting Research, 2010, 48(5):1049–1102.
Loughran T, Mcdonald B. When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10‐Ks[J]. Journal of Finance, 2011, 66(1):35-65.
風險管理工具 / 量化投資知識 / 金融大講堂——"有金有險"
(歡迎金融機構從業的朋友申請BAR系統的試用)