您的位置:首頁>財經>正文

智能金融分論壇實錄丨朱英姿:機器學習與量化投資

主題:智能金融分論壇

時間:2017年5月22日上午

地點:國家會議中心403

本文根據速記進行整理

機器學習與量化投資

朱英姿

清華大學經濟管理學院教授

主持人: 產學研結合, 王健宗是業內的傑出代表, 下面請清華大學經管學院朱英姿教授, 簡歷大家可以在網上搜, 朱英姿以前在紐約大學學數學, 在花旗銀行工作了很多年時間, 然後回國在清華大學。 我和朱教授第一次見面的時候印象非常深刻, 那個時候陽光非常明媚, 我在朋友圈裡寫春風十裡不如你, 為什麼?我和朱教授在清華東門星巴克聊了三個半小時,

聊什麼我不說, 朱教授在接下來的報告裡跟大家分享機器學習與量化投資。

朱英姿:我那天和柳博士在星巴克聊得很嗨, 聊的就是策略, 上次我們是3月份, 現在是5月份, 兩個月過去了, 我的想法有很大的改變。 為什麼現在我不嗨了, 那次我們聊的時候正好我們在做一個機器學習的量化策略,

當時東西剛出來我特別興奮, 弄出來的Sharpe Ratio我很興奮, 但是回過來我發現很多策略、很多機器學習的方法、很多學生每天在實驗室裡泡著, 每天看著圖像給一個例子, 如果得到的圖像不盡人意的話, 他會在朋友圈裡抱怨一下, 淩晨十二點出來一個好圖像, 其他同學就給他歡呼, 這就是現在在學校裡做機器學習的一種傾向。 後來我反思, 這樣做出來的東西我如何控制, 我敢不敢用, 這就是我兩個月的思考, 現在冷靜下來了, 我現在發掘策略本身不重要, 機器學習是非常強的擬合搜索的引擎, 非常強大, 給任何的資料可以擬合出非常漂亮的曲線, 但是這個不重要, 重要的是怎麼樣控制過擬合,
這就是今天我要講的。

這是一個非常難的問題, 在你不知道真實答案的時候, 在你不知道這個市場上有多少錢可賺的時候, 你不知道你的limit在哪裡, 當你不知道limit在哪裡的時候很難控制Type II、Type I error。 回答這個問題之前我知道這個問題在量化投資裡永遠沒辦法回答, 剛才柳博士說深度學習, 有些領域確實可以不在乎, 在量化投資領域我們非常在乎, 因為金融資料裡信噪比是非常低的。 當你在金融裡做一個回歸的時候如果能得到R2=2%、1%就非常高興了, 性噪比只有50-100。 我從另一個角度看看別人怎麼做的, 美國人怎麼做的, 現在行業裡的標準在怎麼做, 我還想看看這樣的問題不光是量化投資裡, 物理學、生物學、藥學裡同樣存在非常大的問題,

我想看行業裡到底怎麼做, 給我們量化投資未來在這個行業在這個方向有一些啟示, 這就是我今天要講的。

我搜索了一下量化投資的商業模式, 大概可以分這三種, 我不說非常傳統的從共同基金, 我們就說從現在機器學習發展開始, 引入量化投資以及量化投資飛速增長的這幾年來看, 我們到底有哪些模式。 第一種模式, Smart beta, 這個模式涵蓋了所有過去傳統的投資, 包括基金、指數投資。 Smart beta現在變得更加smarter, 得益於機器學習, 但是它如何控制它的過擬合, 這是個行業的問題。 現在所用的Smart beta有兩個典型的公司, 大家都知道, 叫DFA和AQR, 這兩個公司是美國第一第二大基金, 除了純指數, 這兩個是基於主動和被動之間。

他們大概的規模是幾千億美金。

第二種模式是Alpha factory, 典型的代表公司, 清華任何一個工科同學, 對量化感興趣的都知道。 Alpha本身並不是一個新概念, 如果你認為市場有錢賺, 市場是非有效的, 通過發現非有效性就可以去挖掘超額收益, Alpha就是超額收益。 為什麼會有factory, 這就得益於機器學習。

最後一個是Data Science, 就是王總公司所做的非常超前的領域, 這是一種非常新的模式, 但其還未成形, 從資料手機到產生策略、進行組合到投入應用還有很長的路要走。

我們首先講講Smart Beta, 也叫聰明Beta, 它是在傳統指數投資的基礎上, 採用系統性方法, 對選股策略進行優化, 達到跑贏傳統指數投資目的的策略。 舉一個簡單的例子, 買小股票一定可以跑贏大股票, 長期來看怎麼看怎麼好,只要有中國A股市場經驗的人都知道小而美,但前年的十一月到十二月間月有一小段視窗期可能會有些輾轉。我們可以通過不同的權重來做倉小盤股,從而獲得超額回報。從Smart Beta的市場來說,這是一種被動投資,其優勢就是管理費用低、資訊透明度高,普通人在投資前不需要告知要做什麼,這一點非常透明。以美國的經驗來看,此類投資將會是主流。現在絕大部分的散戶的錢,因為監管的原因,基本會投資在此類型產品中。但是如果我們重新定義Smart Beta,所有這些稱之為指數型投資、Smart Beta型投資或者小股票型的投資,其本質特點是什麼?規則事前已確定,在招股說明書中也已確定投資人。從小股票指數開始,所有內容都寫在了學術檔中,可隨時查詢,所有人都知道他在做什麼,市場上誰做得最好,誰的規模最大。

我們所討論的機器學習方法,也是在選擇一種規則,這種規則要在投資前就確定好,要將各樣策略的測試呈現給投資人,投資人根據策略測試的結果進行投資。目前這個行業最大的問題,即如何判斷策略測試的結果是否有效。

Smart Beta是金融資產定價理論的直接產物,這是一種採用因數模型的直接的機器學習。量化流程便可通過機器計量方法進行各種優化組合。當我剛開始接觸機器學習的方法,我特別興奮,因為它就是金融計量方法的延伸,可以從線性模型到非線性模型,低維度到高維度,運算速度非常快。可採用的工具很多,但所有的問題的核心仍然是資料。美國的可靠資料是從1929年開始收集的,而中國可靠的資料卻是從1995年開始收集的,更可靠的股權分置改革以後的資料的收集時間就就更短了,僅僅只有10多年。因為我們的資料非常稀缺,我們非常珍惜資料。

若一個模型有95%的概率是正確的,這叫選擇偏差。這是2000年諾貝爾經濟學獎獲得者Heckman的獲獎成果,選擇偏差在社會科學研究中廣泛存在。以拋硬幣為例,若拋硬幣十次,硬幣都是正面朝上的概率非常小,重複實驗兩次,概率依然很小,實驗十次呢?實驗一千次一萬次呢?則在這一萬次連拋十枚硬幣試驗中出現一次硬幣都是正面的概率會大大增加,拋的越多則能得到我們想要結果的概率會大大增加。這一點和我們做實驗是一樣的。若我們選擇一個策略,不行,再繼續實驗,看看什麼地方不對,這是我們一直在做的,也是各種各樣的研究都在做的。這些工作以前是人工來做的,現在由電腦幫我們做,所有電腦都可喲在一秒鐘內計算十萬次,那麼這個問題就非常嚴重了,如何控制不吻合的情況,如何使得結果可信,我們自己都不知道真正的範圍在哪裡,這是個嚴重的問題。

我們來看一下其他領域怎麼做的。我以前是學粒子物理的,粒子物理的實驗雜訊非常大,兩倍的T是不夠的,那T等於3夠不夠?T等於3是八幾年做出來的,同行否掉了,這個領域4還是不夠,最後一錘定音的是T等於5,那麼得到準確結果的概率是多少?這就是我們同行做實驗的標準。

在藥品領域,國外有AllTrial Campaign,要進行各種實驗,且要持續很多年。這樣的實驗一般都交由藥企來做做,是存在選擇性偏差的。我做的不好的就不告訴你,做好了再告訴你。所有的實驗在操作之前都要告知公眾是如何去做的,每次試驗的結果也須公佈,這才是所有的資訊。我們這個行業進行此類控制非常困難,我不告訴你你就不知道,這需要制定標準,即實驗前就需要告知想法從哪裡來,需要做什麼類型的實驗。

這是一個很典型的美國資料,概率為0.92遠遠高於0.3,但它夠不夠?用更嚴格的統計檢驗來看是不夠的,這是五年的資料,如果算T的話它到了3,從常規的角度來說它是可以接受的,但是實際是不夠的。

機器學習總的來說在Type I和Type II之間,我們希望尾巴越短越好,T越高越好,當T越高,就可能失去了很多機會。藍色曲線代表的是真實的,真正市場上可賺到的錢,以合法的方式可賺到的錢,最高也就是這個Sharpe率,標準越高這部分就失去了。這部分是真正的策略,但是它顯示不出來。我們要保證所有資料清洗得很乾淨,不希望這些資料被反反復複使用,要告知實驗的出發點是什麼,基於行為金融或某些制度的缺陷,要告知其經濟學理論和通過市場觀察的結論是什麼,不能反復使用,要告知實驗需採用那些資料,實驗計畫進行次數,實驗特點。從長期的非高頻的角度來看,太高的Sharpe需重新審視。對樣本外資料進行檢驗的統計方法,是行業中最熱門的方法,如何設計各種檢驗方法,盡可能提升結論的可靠性的研究,一直在持續進行。

講一下Alpha factory,這個模式很新。其典型代表是這位光頭先生Spinoff,他是個白俄羅斯人,是Millenium的交易員,看上去就非常強勢。他太優秀了,想要要自己幹,公司說不行,你還留在我這吧,我給你機會,現在他還是Millenium的大股東。這個模型怎麼樣,從資管的角度來看他規模很小,但是其很有代表性。它是個Alpha factory,在全世界招最好的學生,也在印度等一些欠發達國家招募,這些學生招來後就在本地就有辦公室,給他一個筆記本就能幹活,他提供資料及各種回測的方式,這些學生或研究者在世界各個角落均可使用,我認為較低水準的Alpha信號都在他的資料庫中,他說將來要搜集到100萬的Alpha信號,他們抓取所有的信號,放到他的流水線上,這都是信號。他有一套方法能夠把信號變成策略,把策略變成組合,然後把組合變成產品,這就是整個的一條流水線。

他的成功有兩點。第一,他把世界上所有最好的頭腦進行整合,他的人力資源分佈在世界各地,我們的學者使用成本很低,印度的更低,他們把所有好的想法都召集起來,這些想法是海量的,但品質並不高。等會兒我說背後的邏輯是什麼,這個邏輯和我們剛才的邏輯完全相反。他這樣做得很成功,最關鍵的是他需要有一個很好的風險控制能力,做到在後臺識別這個信號是真是假,這是他的商業模式裡最秘密的部分,是不公開的。所有這些Alpha大家都知道,我們同學只要有一個同學做了,那麼清華的所有工科生都會知道。

他的邏輯是什麼?他的邏輯就是主動管理的法則。我若想達到期望的投資回報,一方面可以改進預測的手段、提升預測精度,這就是所有的理論、實驗所要達到的目的。另一方面我不需要很高的IC,可以招很多人,做各種各樣的實驗。只要每個人是獨立的,則做出來的東西就是獨立的,BR就增加,可以用廣度代替深度,這就是他的想法。如果在廣度上下了工夫,在深度上可以放棄一些。深度最典型的代表是巴菲特,他投幾個股票,一投就持股十幾年,他有他的特色,很多人並做不到這一點。若方向正確,則只需要擴大廣度,在全世界範圍內找人來做,在他的平臺上就可以實現這一點,因此平臺集成是非常重要的。

最後一個是我最不瞭解的也是現在非常熱門的一個。阿裡、百度、騰訊都在這方面下工夫,他們有這樣的優勢。舉個例子,一個公司如果有衛星雲圖,能夠看到停車場上的停車情況,就能判斷這個月的車輛銷售額是多少,用各種各樣的奇怪的大資料能就夠大概地在他的年報或季報出來之前,得到公司相關的預測,只要在他之前就能預測出品質比較高的信號,那就可以戰勝市場。

這種資料非常多,比如社交媒體資料、衛星雲圖的資料。在此引用Bridgewater CEO的話,它可以加速你的決策過程,但是如果大家只看到幾個模型,他最終要走到產品這個模式還有很長一段路要走。我很興奮我能在這個時點在這個領域裡有一些工作,我認為當產品是公眾產品時,其行業標準會更高,更加透明的標準會寫在CFA的章程裡。相對於人腦的計算能力,電腦做得更快,人要做的就是控制電腦做的事情,你告訴它要做什麼,在事後要告訴它結論是否正確。當然這個過程還在做研究,研究完成後也可以自動進行。人要做的永遠是那部分最難的工作,當它做完以後就可以自動化交給機器。在市場上,賺錢越來越難。清華裡有很多搞機器學習的實驗室、教授,他們對金融資料都特別感興趣,他們認為金融資料好像是一個另類,和其他資料都不一樣,這是他們的感受,我們大家都一起學習,謝謝大家。

主持人:謝謝朱教授,朱教授給我印象最深刻的就是氣場,我感覺到了科學家的精神。如果你不和資料日夜糾纏,是做不好的,大資料維度很高、量很大,通過人的力量是很難完全獲取。,在普通人的眼睛裡,這個世界上根本不存在大資料,為什麼?因為看你在哪一個層次看資料問題。如果你某在一種相對較低的層次上,是沒有大資料的。炒股怎麼能賺錢,大漲的時候大賺一筆,大跌的時候少虧一點,其他時候稀裡糊塗。怎麼評價量化的策略,要日夜糾結資料,不日夜糾結就煥發不出科學精神的氣場。

CAAI原創 丨 作者朱英姿

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

交叉、 融合、 相生 、 共贏

長期來看怎麼看怎麼好,只要有中國A股市場經驗的人都知道小而美,但前年的十一月到十二月間月有一小段視窗期可能會有些輾轉。我們可以通過不同的權重來做倉小盤股,從而獲得超額回報。從Smart Beta的市場來說,這是一種被動投資,其優勢就是管理費用低、資訊透明度高,普通人在投資前不需要告知要做什麼,這一點非常透明。以美國的經驗來看,此類投資將會是主流。現在絕大部分的散戶的錢,因為監管的原因,基本會投資在此類型產品中。但是如果我們重新定義Smart Beta,所有這些稱之為指數型投資、Smart Beta型投資或者小股票型的投資,其本質特點是什麼?規則事前已確定,在招股說明書中也已確定投資人。從小股票指數開始,所有內容都寫在了學術檔中,可隨時查詢,所有人都知道他在做什麼,市場上誰做得最好,誰的規模最大。

我們所討論的機器學習方法,也是在選擇一種規則,這種規則要在投資前就確定好,要將各樣策略的測試呈現給投資人,投資人根據策略測試的結果進行投資。目前這個行業最大的問題,即如何判斷策略測試的結果是否有效。

Smart Beta是金融資產定價理論的直接產物,這是一種採用因數模型的直接的機器學習。量化流程便可通過機器計量方法進行各種優化組合。當我剛開始接觸機器學習的方法,我特別興奮,因為它就是金融計量方法的延伸,可以從線性模型到非線性模型,低維度到高維度,運算速度非常快。可採用的工具很多,但所有的問題的核心仍然是資料。美國的可靠資料是從1929年開始收集的,而中國可靠的資料卻是從1995年開始收集的,更可靠的股權分置改革以後的資料的收集時間就就更短了,僅僅只有10多年。因為我們的資料非常稀缺,我們非常珍惜資料。

若一個模型有95%的概率是正確的,這叫選擇偏差。這是2000年諾貝爾經濟學獎獲得者Heckman的獲獎成果,選擇偏差在社會科學研究中廣泛存在。以拋硬幣為例,若拋硬幣十次,硬幣都是正面朝上的概率非常小,重複實驗兩次,概率依然很小,實驗十次呢?實驗一千次一萬次呢?則在這一萬次連拋十枚硬幣試驗中出現一次硬幣都是正面的概率會大大增加,拋的越多則能得到我們想要結果的概率會大大增加。這一點和我們做實驗是一樣的。若我們選擇一個策略,不行,再繼續實驗,看看什麼地方不對,這是我們一直在做的,也是各種各樣的研究都在做的。這些工作以前是人工來做的,現在由電腦幫我們做,所有電腦都可喲在一秒鐘內計算十萬次,那麼這個問題就非常嚴重了,如何控制不吻合的情況,如何使得結果可信,我們自己都不知道真正的範圍在哪裡,這是個嚴重的問題。

我們來看一下其他領域怎麼做的。我以前是學粒子物理的,粒子物理的實驗雜訊非常大,兩倍的T是不夠的,那T等於3夠不夠?T等於3是八幾年做出來的,同行否掉了,這個領域4還是不夠,最後一錘定音的是T等於5,那麼得到準確結果的概率是多少?這就是我們同行做實驗的標準。

在藥品領域,國外有AllTrial Campaign,要進行各種實驗,且要持續很多年。這樣的實驗一般都交由藥企來做做,是存在選擇性偏差的。我做的不好的就不告訴你,做好了再告訴你。所有的實驗在操作之前都要告知公眾是如何去做的,每次試驗的結果也須公佈,這才是所有的資訊。我們這個行業進行此類控制非常困難,我不告訴你你就不知道,這需要制定標準,即實驗前就需要告知想法從哪裡來,需要做什麼類型的實驗。

這是一個很典型的美國資料,概率為0.92遠遠高於0.3,但它夠不夠?用更嚴格的統計檢驗來看是不夠的,這是五年的資料,如果算T的話它到了3,從常規的角度來說它是可以接受的,但是實際是不夠的。

機器學習總的來說在Type I和Type II之間,我們希望尾巴越短越好,T越高越好,當T越高,就可能失去了很多機會。藍色曲線代表的是真實的,真正市場上可賺到的錢,以合法的方式可賺到的錢,最高也就是這個Sharpe率,標準越高這部分就失去了。這部分是真正的策略,但是它顯示不出來。我們要保證所有資料清洗得很乾淨,不希望這些資料被反反復複使用,要告知實驗的出發點是什麼,基於行為金融或某些制度的缺陷,要告知其經濟學理論和通過市場觀察的結論是什麼,不能反復使用,要告知實驗需採用那些資料,實驗計畫進行次數,實驗特點。從長期的非高頻的角度來看,太高的Sharpe需重新審視。對樣本外資料進行檢驗的統計方法,是行業中最熱門的方法,如何設計各種檢驗方法,盡可能提升結論的可靠性的研究,一直在持續進行。

講一下Alpha factory,這個模式很新。其典型代表是這位光頭先生Spinoff,他是個白俄羅斯人,是Millenium的交易員,看上去就非常強勢。他太優秀了,想要要自己幹,公司說不行,你還留在我這吧,我給你機會,現在他還是Millenium的大股東。這個模型怎麼樣,從資管的角度來看他規模很小,但是其很有代表性。它是個Alpha factory,在全世界招最好的學生,也在印度等一些欠發達國家招募,這些學生招來後就在本地就有辦公室,給他一個筆記本就能幹活,他提供資料及各種回測的方式,這些學生或研究者在世界各個角落均可使用,我認為較低水準的Alpha信號都在他的資料庫中,他說將來要搜集到100萬的Alpha信號,他們抓取所有的信號,放到他的流水線上,這都是信號。他有一套方法能夠把信號變成策略,把策略變成組合,然後把組合變成產品,這就是整個的一條流水線。

他的成功有兩點。第一,他把世界上所有最好的頭腦進行整合,他的人力資源分佈在世界各地,我們的學者使用成本很低,印度的更低,他們把所有好的想法都召集起來,這些想法是海量的,但品質並不高。等會兒我說背後的邏輯是什麼,這個邏輯和我們剛才的邏輯完全相反。他這樣做得很成功,最關鍵的是他需要有一個很好的風險控制能力,做到在後臺識別這個信號是真是假,這是他的商業模式裡最秘密的部分,是不公開的。所有這些Alpha大家都知道,我們同學只要有一個同學做了,那麼清華的所有工科生都會知道。

他的邏輯是什麼?他的邏輯就是主動管理的法則。我若想達到期望的投資回報,一方面可以改進預測的手段、提升預測精度,這就是所有的理論、實驗所要達到的目的。另一方面我不需要很高的IC,可以招很多人,做各種各樣的實驗。只要每個人是獨立的,則做出來的東西就是獨立的,BR就增加,可以用廣度代替深度,這就是他的想法。如果在廣度上下了工夫,在深度上可以放棄一些。深度最典型的代表是巴菲特,他投幾個股票,一投就持股十幾年,他有他的特色,很多人並做不到這一點。若方向正確,則只需要擴大廣度,在全世界範圍內找人來做,在他的平臺上就可以實現這一點,因此平臺集成是非常重要的。

最後一個是我最不瞭解的也是現在非常熱門的一個。阿裡、百度、騰訊都在這方面下工夫,他們有這樣的優勢。舉個例子,一個公司如果有衛星雲圖,能夠看到停車場上的停車情況,就能判斷這個月的車輛銷售額是多少,用各種各樣的奇怪的大資料能就夠大概地在他的年報或季報出來之前,得到公司相關的預測,只要在他之前就能預測出品質比較高的信號,那就可以戰勝市場。

這種資料非常多,比如社交媒體資料、衛星雲圖的資料。在此引用Bridgewater CEO的話,它可以加速你的決策過程,但是如果大家只看到幾個模型,他最終要走到產品這個模式還有很長一段路要走。我很興奮我能在這個時點在這個領域裡有一些工作,我認為當產品是公眾產品時,其行業標準會更高,更加透明的標準會寫在CFA的章程裡。相對於人腦的計算能力,電腦做得更快,人要做的就是控制電腦做的事情,你告訴它要做什麼,在事後要告訴它結論是否正確。當然這個過程還在做研究,研究完成後也可以自動進行。人要做的永遠是那部分最難的工作,當它做完以後就可以自動化交給機器。在市場上,賺錢越來越難。清華裡有很多搞機器學習的實驗室、教授,他們對金融資料都特別感興趣,他們認為金融資料好像是一個另類,和其他資料都不一樣,這是他們的感受,我們大家都一起學習,謝謝大家。

主持人:謝謝朱教授,朱教授給我印象最深刻的就是氣場,我感覺到了科學家的精神。如果你不和資料日夜糾纏,是做不好的,大資料維度很高、量很大,通過人的力量是很難完全獲取。,在普通人的眼睛裡,這個世界上根本不存在大資料,為什麼?因為看你在哪一個層次看資料問題。如果你某在一種相對較低的層次上,是沒有大資料的。炒股怎麼能賺錢,大漲的時候大賺一筆,大跌的時候少虧一點,其他時候稀裡糊塗。怎麼評價量化的策略,要日夜糾結資料,不日夜糾結就煥發不出科學精神的氣場。

CAAI原創 丨 作者朱英姿

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智慧學會

交叉、 融合、 相生 、 共贏

Next Article
喜欢就按个赞吧!!!
点击关闭提示