大數據有多大？——金融研究正在實現的未來

如何讓自己看起來像一個洋氣的金融人？

最簡單的方法就是做詞彙替換，比如在聊天的時候把語句中所有的比特幣都換成區塊鏈，把電腦下單換成人工智慧，把寫代碼換成深度學習，最後再把報表整理叫做大資料，這樣聽起來一下子就非常高端大氣了。

玩笑歸玩笑，但是“大資料（Big Data）”這幾年的確火得一塌糊塗，基本上所有的書店熱書榜上，都出現過那本《大資料時代》的身影。最近一段時間似乎很少再有行銷文拿大資料當噱頭吸睛了，不過原因在於大資料已經成為金融應用中的常態（或者新常態），

大家已經見怪不怪了。

但是同一切事物一樣，我們習以為常的東西往往卻難以說清，大資料也是一樣，它到底指代什麼，多大的資料才算大，以及為什麼金融人對這個概念趨之若鶩，這也就是本文所討論的核心話題。

大資料的“大”，往往被解讀為4個V，

即大容量（Volume）、高速度（Velocity）、真實性（Veracity）和多樣性（Variety），通俗來說，大資料就是一切可記錄信號的集合。對於金融研究而言，上述四個特徵的核心價值在於，我們可以通過更豐富的真實資料，來拓寬我們實證研究的分析維度，獲得更豐富的成果。

做過實證研究的人一定都頭疼過資料的問題，計量分析對隨機性的要求往往是借助資料樣本量的富足才在技術上實現的。但是無論是時序上的時間限制，還是截面上的空間桎梏，都從資料上對金融研究存在影響。而資訊時代資料膨脹無疑為解決上述問題提供了一把利器，而這把利器為我們研究金融問題也提供了兩種截然不同的好處。

第一個好處自然是讓我們堅定了既有的信念。事實上許多金融理念之所以尚未得到普遍接受，就是因為既往的研究缺乏更豐富的資料支援，或者已有資料與理論假設存在差異（例如缺乏統計理論基礎）或者有嚴重的內生問題。翻看近年來的論文，你就會發現，許多曾經被猜測會影響市場收益（尤其是股票）和公司治理的因素，

都隨著相關資料搜集的豐富，而得到了一定程度上的驗證，我們這個系列的文章也對這部分的內容多有記載，有興趣的朋友可以點連結進行閱讀。

另一個好處則是推翻了許多過去金融研究的結果。比如傳統金融一直強調，市場中存在資訊優勢和資訊劣勢的投資者，如果一種股票的投資者主要是資訊優勢者，那麼這類交易者的行為會顯著影響股票的收益率。這一類最早的研究來源於Easley等人在1996年的研究，並且這一結論符合我們一貫的市場假設，所以也得到了廣泛的認同。但隨著近年來資料的富足，後續的研究者卻在不同市場和更長的歷史時間段裡發現，資訊優勢者交易股票頻率的變化是股票收益率變動的主要原因，

而資訊本身不帶來任何額外的收益（Duarte和Young在2009年的研究成果），而研究範圍一旦擴展到全球，那麼資訊優勢與收益率的相關性就越弱（Lai等人在2014年的研究成果）。雖然這一問題尚未蓋棺定律，但是傳統信念被動搖已經是不爭的事實。

當然金融學的發展本身其實也是一條不斷堅定和不斷反思的路徑，上述分析並非大資料一人之功。但是下面提到許多內容，卻的確拜大資料的發展所賜。比如近年來金融學科與其他學科結合趨勢的加強，在很多方面都是大資料方法引入的結果，這一點在行為金融領域尤其顯著，一些涵蓋生物學（例如Frydman等人在2014年的研究）、心理學（Edmans等人在2007年的研究，值得一提的是，這篇論文討論的是球迷對股票市場的作用，我們會在之後的連載中專門談論一下這類文章，畢竟，馬上要世界盃啦）的文獻，都借助大資料的方法，拓寬了金融學本身的內涵。

而大資料方法本質上作為一種統計方法，其實最核心的價值在於為過去我們無法涵蓋的內容提供了量化方法。例如對文本的轉換和利用互聯網資料（比如搜索量、發帖量）對投資者情緒或者市場趨勢進行描繪的方法，已經在大量研究中廣泛使用，我們在之前的推送中也有過涉及（字裡行間都是情——股市情緒的文本分析法以及那些奇怪的金融研究（二十二）：靠股票論壇資訊炒股到底靠譜嗎？——一份對東方財富網股吧的大型研究）

而大資料方法的另一個突破在於，我們對傳統上難以量化的內容可以進行資料化的處理，因為大資料的一個核心理念就在於，一切皆可量化。這些研究目標所使用的往往是一些非結構化的資料，即視頻、圖片、音訊等等，這些內容與傳統意義上的資料大相徑庭，傳統方法也不具備處理這類資料的基本前提。比如很早以前人們就發現相貌本身會對收入、銷售等結果產生影響，但是對於長相的評判大家都缺乏一個合理的標準，只能通過對照片人工打分來實現，這無疑使得資料的中性難以維持。而大資料方法的引入，則可以使用相應的資料建模方法對照片進行分析評估，例如Halford和Hsu在2013年的一項研究，就使用了電腦識別技術，對標普500在2000年以來CEO的照片進行打分，並統計出一個面部吸引力指數，結果發現CEO長得好看，可以對企業IPO、收購帶來一定的溢價，如果CEO更頻繁地出現在媒體中，那麼這樣的加成還會更顯著。甚至有一些研究通過研究長相，來分析是不是長得好看有助於這些人從銀行貸到款。

事實上從前面的內容我們也可以看到，大資料是從資料處理能力和資料豐富程度兩個方向大大拓展了傳統金融的研究範圍，這無疑對我們之前提到過的金融研究中資料不足和內生性的問題提供了很好的解決思路。但是與此同時，我們也需要意識到一個問題，資料越大就一定越好嗎？

對於研究者來說，資料爆炸其實是一把雙刃劍，好處如前所述，但是壞處在於我們如何實現對這些繁複資料進行降維和簡化的處理，以實現資料的精煉化。拋開傳統統計方法中的高維矩陣、變數選擇方法，還需要結合大資料發展帶來的資料流程等演算法進行同步處理，這其實對金融研究者的統計學能力、軟硬體設備都提出了更高的要求。

而大資料的一些統計方法，比如生態學常用的空間零膨脹泊松回歸模型、環境資料時空零膨脹計數模型在金融研究中的應用，表明學者們依然繼承了金融學研究傳統的“拿來主義”傳統，這類模型及其相應的資料處理方法是否符合金融學研究的本質和要求，在目前看來是存疑的，但是問題在於我們並沒有一個得到公認的方法去探討這樣應用的合理性，這一點即便在統計學領域也依然未有定論。因此大資料作為一個快要過氣的網紅詞彙，在金融中的應用依然處於一個摸索的階段。但毫無疑問，金融研究尤其是金融的實證研究，在未來不可避免地會進入一個大資料的時代，高頻、海量會是這個領域未來的關鍵字所在，一些金融學傳統的理論大廈會因此傾覆，另一些新的大樓也正在奠基。

【參考文獻】

Duarte J, Young L A. Why is PIN Priced?[J]. Journal of Financial Economics, 2009, 91(2):119-138.

Easley D, Kiefer N M, O'Hara M, et al. Liquidity, Information, and Infrequently Traded Stocks[J]. Journal of Finance, 1996, 51(4):1405-1436.

Edmans A, Øyvind Norli. Sports Sentiment and Stock Returns[J]. Journal of Finance, 2007, 62(4):1967-1998.

Frydman C, Barberis N, Camerer C, et al. Using Neural Data to Test A Theory of Investor Behavior: An Application to Realization Utility[J]. Journal of Finance, 2014, 69(2):907-946.

Halford J T, Hsu S H C. Beauty is Wealth: CEO Appearance and Shareholder Value[J]. Social Science Electronic Publishing, 2013.

Lai S, Ng L, Zhang B. Does PIN affect equity prices around the world?[J]. Journal of Financial Economics, 2014, 114(1):178-195.

風險管理工具 / 量化投資知識 / 金融大講堂——"有金有險"

（歡迎金融機構從業的朋友申請BAR系統的試用）

值得一提的是，這篇論文討論的是球迷對股票市場的作用，我們會在之後的連載中專門談論一下這類文章，畢竟，馬上要世界盃啦）的文獻，都借助大資料的方法，拓寬了金融學本身的內涵。