第7章 颶風裡行船隻往後看
川妹子發現了新大陸。
自從認識西門以後,她對任何量化的東西都很感興趣。西門雖說是滿腹經綸,但是從來不會給川妹子的熱情潑冷水。不僅如此,他一般都是很鼓勵川妹子的。
很多個傍晚,他們兩個一起坐下來研究川妹子記錄的各種數據,都是關於她見到的投資名人,西門趁機給她介紹很多統計的概念,更重要的是給她說統計數字後面所掩蓋的問題。所以川妹子也學會了西門常說的一句英文口頭禪:「謊言有三種:謊言、該死的謊言和統計數字。」她知道了這話最先應該是英國首相狄斯累利說的,馬克·吐溫後來的引用使它十分出名。比如,川妹子知道了平均值可能隱藏了巨大的不均,但是用來反映不均情況的標準差則常常對肥尾估計不足,人們通常說因為甲和乙的關聯繫數高所以甲和乙有因果關係也是沒有道理的,而且,關聯繫數本身就很容易受到一些因素的影響(比如肥尾),所以算出來的數字可能毫無意義,等等。這只不過是統計學的入門概念,川妹子慢慢開始迷上這個學科了,西門建議她報名參加網上大學的課程,川妹子準備去做。西門教她如何使用網上免費的一些統計工具,川妹子把她的那些數據上傳到網站,按幾個按鍵,就能得到很多的分析結果。試了幾次不同的方法,川妹子才發現這些複雜的方法能從她的簡單數據裡面發現那樣多的規律!每到這些時候,他們兩個總是比賽誰先說:「謊言有三種:謊言、該死的謊言和統計數字。」
川妹子也開始琢磨用量化的方法來改進她的主要是靠小道消息的炒股方法。有一天,她神秘地對西門說:「我找到了!」
「找到什麼了?」西門笑瞇瞇地問。
「常勝不敗的投資秘訣,」川妹子說。
「嗯。那可千萬不能告訴我,否則我也去模仿,你的秘訣就會失靈的。」
「我偏要告訴你嘛。我每個月都買入上個月表現第二好的行業裡面表現第二好的股票,持貨一個月,下個月再調整。因為我覺得表現最好的行業和股票已經被人炒高了,所以追進去肯定是死路一條。但是第二好的股票正好可以藉著第一好的衝勁兒。你看跑長跑的,很多時候都是緊緊跟著領先的那個人最後贏。我已經試了三個月,每個月都賺錢。」
「哦,不錯呀!」西門說。
25倍標準差事件
2007年7、8月間,量化基金遭到「血洗」,連平常保持沉默的西蒙斯也不得不給投資人寫信解釋情況。損失最大的基金集中在統計套利這種策略上,很多這類基金同時出現高額虧損,這是比較罕見的。通常即便在市場對某種策略不利的時候,因為各種不同的基金使用的同類策略會各不相同,所以虧損的程度也都會不同。但這一次幾乎所有的統計套利基金都賠得很慘。摩根士丹利的量化基金據說在一天之內賠了超過3.9億美元,遠遠超過風險控制的下限。高盛財務總監說連續數日出現25倍標準差的市場價格變化,高盛的兩隻以量化為主的基金8月分別虧損了23%和30%。有些人驚呼:這是量化基金百年一遇的風暴。也有一位教授冷靜地說:「25倍標準差的市場價格變化?宇宙的年齡都不夠我們觀測到16倍標準差的事件呢!」
很多人認為,這個現象的出現正是因為過多的資金在追隨同一個策略,超出了市場的容量。而在退出的過程中,大家都爭相衝向大門,所以使情況進一步惡化。雖說復興技術公司管理的機構投資人股票基金所受到的虧損小於很多競爭對手的虧損,但是也有人評論說即便是天下最聰明的頭腦也無法對抗變化莫測的市場,而長期資本管理就是前車之鑒。
正是因為西蒙斯過去的成功,很多量化基金紛紛效仿復興技術的各種策略,最後導致它們的頭寸很相似。比如,2007年6月,根據各大基金給美國證交會上報的文件,復興技術的機構投資人股票基金的前10大股票部位裡面有4只股票和另一個專門從事量化投資的基金重疊。隨著當時美國次貸問題的惡化,許多與房屋相關的行業的股票、債券受到影響,按揭證券化資產的價格下跌,給對沖基金貸了很多錢的銀行開始要求收回貸款,並且要求對沖基金增加抵押資產,這使得有些量化基金不得不平倉止損。但是因為它們的部位相似,槓桿通常很高,一家開始平倉會引發連鎖反應,使那些被做空的股票價格螺旋上升,那些被做多的股票價格螺旋下降。
這也說明了一個問題:股票被統計套利盯上本身已經變成了一個風險因素,但是統計套利的複雜模型則沒有考慮到這一點。
在最近5年裡,過去採取超短線高頻統計套利策略的基金,包括復興技術和DE肖爾公司開始使用比較長線的模型,主要是為了增加交易容量,減少流動性風險。但是,使用傳統比較長線的股票多空策略的基金開始使用比較短線的模型,因為它們的技術能力在提高,這樣做也是為了使風險多元化。多空策略基金的數量也大幅度增加。全球很多市場上,共同基金紛紛推出了一類新的基金產品,叫130︰30基金,這類基金可以做空30%的倉位,做多130%,從而保持共同基金淨槓桿最多不超過100%的限制,但是同時又介入了對沖基金的領地:股票多空策略。所有的這些策略,雖說細節各異但都是按照馬科維茨的理論來構建投資組合的,採用的歷史數據大同小異,所以這些林林總總的基金持貨相近不足為奇。即便是那些按照宏觀方法投資的基金也常常會採用類似的理論來構建投資組合,所以當小的波動出現,龐大的人流一起衝向大門時,很多基金會損失慘重。
警鐘還是喪鐘
那這是不是量化投資的喪鐘呢?
前面提到過的高盛量化基金的創始人之一,後來另立門戶單干的量化基金管理人阿斯尼斯在給投資人的信中寫道:「有時候我會聽到人們用很概括的話說:『(看,這正說明電腦模型是要賠錢的。』這句話沒有錯,電腦模型賠了錢。沒有一個永遠不賠錢的電腦模型。最近的事件並不能說明模型出了問題,而只是說明某個交易策略過分擁擠。在過去,很多量化的和非量化的投資策略也出現過類似的問題,當大家都擠著要出門的時候免不了會有傷痛。」
對於統計套利策略的相似性,一位復興技術的管理人員在接受採訪時說:「當你認為自己找到了靈丹妙藥的時候,別人可能也找到了。」但是他說各種統計套利策略之間的關聯繫數並不像媒體報道的那樣高,只有15%左右,問題的關鍵是很多基金採取很高的槓桿,新的基金又在不斷加入,所以這種策略整體風險增高。當市場處在非常時期,螢光屏上的價格不再有什麼意義,因為流動性沒有了。壓水花的技術再好,也需要水呀。
我們認為,不能因為統計套利策略的失敗而將所有的量化投資行業一棍子打死。隨著這個行業的發展,現在很多量化投資技術不再是復興技術、大本營或者DE肖爾的專利,很多共同基金也使用各種量化投資方法,當然共同基金一般不會用很高的槓桿或者用風險比較高的策略。比較常見的用於共同基金的量化技術包括中長期的趨勢追蹤、依靠公式來選股的價值投資模型(還記得我們前面說過的法瑪回報因子吧)、使用布萊克-舒爾斯-默頓方法的保本技術模型(即上一章說過的投資組合保險)、使用馬科維茨的方法來自動進行行業間的配置和資產配置調整技術,等等。
最近一兩年,量化投資經常出現在報紙上,但一般都是在負面的報道中,人們把從市場波動性到股票沽空的壓力再到整個金融危機都歸咎於量化投資,這當然是有失公允的。很多使用量化投資的共同基金並沒有給市場帶來任何破壞,而是為投資人提供了進一步多元化的選擇,所以是好事。當從事統計套利的量化基金遭到血洗的時候,有人統計,美國25家投資美股的量化共同基金中有19家回報好於標準普爾。共同基金的低槓桿或者無槓桿當然是這些量化投資風險較低的一個重要原因,另外,對沖基金通常使用量化技術來積極交易,而共同基金則使用量化技術來尋找比較長期的機會,這也是它們風險不同的一個原因。
數據挖掘
除了跟算法交易或者高頻交易關係更為緊密的市場容量這個問題之外,量化投資還有另外一個潛在的致命問題,那就是數據挖掘。
數據挖掘指的是從大量的數據中發現潛在的、不明顯的有用信息、模式和趨勢的方法,一般通過計算機完成。在金融行業裡面數據挖掘的目的是通過過去來預測未來,數據挖掘的方法現在被用在很多其他行業,如:消費者習慣、犯罪調查、藥物分析、基因研究等。谷歌公司在你的搜索或者電郵頁面放上相對應的廣告,也是一種數據挖掘。
其實,數據發掘也沒有什麼神秘的,人們研究數據從中尋找規律的行為跟人類使用數據來記錄信息的歷史一樣長。這種方法是在最近30年才有了驚人的發展,原因當然是電腦技術的發展和數據量的大幅提高(而且使用數據的方便程度提高、成本大幅度下降)。將本來是人做的事情交給電腦來做,效率的提高是肯定的。但是隨之出現的一個問題就是過度的挖掘,所以有時候人們提到數據挖掘的時候常常是有貶義的味道:如果你盯著一個東西看久了的話,你就會看到本來不存在的規律。或者套用一句統計學家常說的話:「如果你把數據折磨到一定程度,數據什麼都會招的」。
英文裡面為了區分貶義的數據挖掘,常常將那類有些過頭、缺乏依據的做法叫「數據窺視」。維基百科上有一個關於數據窺視的例子,隨便找367個人,其中肯定有兩個人的出生月份和日子相同,比如張三和李四,都是3月17日出生,數據窺視者就可能會進一步去「挖掘」張三和李四的相似點:老婆姓什麼?愛犬叫什麼?女兒是不是彈鋼琴?等等。掘地三尺,總會發現他們兩個有共同點,比如小學3年級都留過一次級,數據窺視者的結論就是:3月17日出生的人小學3年級留級的可能性比較大。
「牛」市
在量化數據分析中有一個很容易犯的錯誤是數據窺視,將巧合當成規律。牛頭來自維基媒體。
當然我們很容易看出這個結論的可笑之處,但是量化投資的很多分析方法所得出的結論都可能犯同樣的錯誤,不過要發現那些錯誤就不那樣容易了,很多投資人或者基金管理人都是在賠了很多錢之後才發現他們成了數據窺視的受害者。
隨便翻開任何一本量化投資或者技術分析的書,或者翻開銀行以及基金的銷售材料,裡面都有很多這樣或者那樣的模型在過去多少年間是如何盈利的圖表,這類圖表一般都是一條比較平滑的、向上的曲線,代表著你的1元錢的投資如何連蹦帶跳變成十元或者百元的,就像大獎章的歷史投資回報,那也是一條比較平滑、向上的曲線。那麼是不是你如果照本宣科、將書上的策略拿到實際中去投資也能變成巨富呢?或者,你將錢投到銀行、基金的很吸引人的銷售材料所說的產品裡面就能一本萬利呢?當然這是有可能的——就像你今天出門的時候被一麻袋錢絆了個跟頭一樣,這也是有可能的,但可能性都不大。西蒙斯的歷史回報曲線是真實的1美元在歷史上是如何變成600美元的,而絕大部分的書裡面或者銷售材料中的曲線則是模擬出來的。模擬不是欺騙:如果歷史上你真是按照書裡面所說的模型投資的話,如果模型考慮到了各種交易成本的話,你的1美元錢的確能變成圖上畫的幾百美元、幾千美元。關鍵的字眼是「歷史上」:如果時光能夠倒流,你突然回到幾年前,那時候的書本上有著千千萬萬個不同的賺錢模型,那時候銀行或者基金的銷售材料也有很多回報誘人的產品,你會選這個後來能一鳴驚人的產品嗎?如果你知道後面將會出現的結果,你當然會一口認定這個模型。可是當年你不知道的時候呢?今天你面前只有這個過去回報很好的模型來勾引你的原因是:模型的設計人已經根據後來出現的情況把那些你過去可能選擇的但是會賠錢的千千萬萬個模型都扔掉了。換句話說,這個模型只適用於設計人所選擇的367個人中的張三和李四,模型的結論很可能是通過數據窺視得出來的。
量化分析的過程其實就是通過過去的數據窺視將來的過程,所以數據窺視的問題是不可避免的但是這並不意味著各種通過挖掘或者窺視得到的結論是一樣有效或者無效的。統計學裡面有各種工具可以幫助設計者減少窺視的可能性,這裡我們就不詳細說了,把它留作將來西門解釋給川妹子的話題之一吧。對於量化基金的管理人、那些想要設計量化投資模型的人和各類想要投資量化產品的投資者來說,這是他們首先要處理的最重要的問題。憑借判斷來投資的方法沒有這個問題,因為靠的都是管理人的判斷,所以你要看管理人過去的成績(投資實證研究的結果對基金管理人過去的表現和將來表現的關係也沒有定論,大致說,共同基金過去的表現基本和未來沒有關係,對沖基金有一些正面的關係。),但是量化投資方法則可以算出各種歷史的「可能」回報,所以窺視的問題到處都是。
也許正是因為量化基金能夠提供各種歷史數據來支持,所以過去20年中它日益被投資者認同,有的投資人還覺得跟那些交易員出身、驕傲自大的判斷型管理人相比,量化基金可能更穩妥一些。但是我們不能忘記量化投資的潛在問題:它依賴的是歷史數據和歷史關係,而歷史,既可能重複,也可能更改。
第8章 誰有下一個點石成金的手指
有一天西門和川妹子見面的時候好像心不在焉,川妹子知道他心裡有事,就讓他直接說出來,反正兵來將擋,水來土掩,沒什麼大不了的。西門鎖著眉頭說領導今天跟他談話,準備讓他去紐約工作,他們公司不久前在那邊開了分支機構。
「那不是挺好嗎?」川妹子興沖沖地說,雖說她的心頭也有一絲陰雲。她接著問西門去了以後會不會提拔,會不會漲工資,西門都點點頭。川妹子笑著說:「又有官升,又有錢賺,多好啊!」
西門看著她,沒有笑,說:「可是一去就是四年!也不知道能不能帶你一起去。」
川妹子聽了心裡一熱,說:「四年又不長。這樣好的機會,要是我的話我就去。再說,我哪裡能去紐約?有你這句話就行了。等你四年回來如果還想見我的話,我還是在這裡。」說著說著,川妹子鼻頭一酸。
西門拉著她的手,沒有說話。
後來他們嘀嘀咕咕分析了半天利弊,最後西門說明天再去跟領導談談。
第二天,川妹子上班的時候壓根兒就沒有心思看過往的名人。
晚上,她跟西門見面的時候強打精神,但是她的心裡空空的。西門見了她說:「我有兩件事要說。第一,我已經告訴領導我不去了。我要聲明,不是因為你,而是因為我覺得我所從事的量化投資工作在中國市場的前景更好。」
川妹子點點頭。又問:「那第二件呢?」
川妹子發現了新大陸。
自從認識西門以後,她對任何量化的東西都很感興趣。西門雖說是滿腹經綸,但是從來不會給川妹子的熱情潑冷水。不僅如此,他一般都是很鼓勵川妹子的。
很多個傍晚,他們兩個一起坐下來研究川妹子記錄的各種數據,都是關於她見到的投資名人,西門趁機給她介紹很多統計的概念,更重要的是給她說統計數字後面所掩蓋的問題。所以川妹子也學會了西門常說的一句英文口頭禪:「謊言有三種:謊言、該死的謊言和統計數字。」她知道了這話最先應該是英國首相狄斯累利說的,馬克·吐溫後來的引用使它十分出名。比如,川妹子知道了平均值可能隱藏了巨大的不均,但是用來反映不均情況的標準差則常常對肥尾估計不足,人們通常說因為甲和乙的關聯繫數高所以甲和乙有因果關係也是沒有道理的,而且,關聯繫數本身就很容易受到一些因素的影響(比如肥尾),所以算出來的數字可能毫無意義,等等。這只不過是統計學的入門概念,川妹子慢慢開始迷上這個學科了,西門建議她報名參加網上大學的課程,川妹子準備去做。西門教她如何使用網上免費的一些統計工具,川妹子把她的那些數據上傳到網站,按幾個按鍵,就能得到很多的分析結果。試了幾次不同的方法,川妹子才發現這些複雜的方法能從她的簡單數據裡面發現那樣多的規律!每到這些時候,他們兩個總是比賽誰先說:「謊言有三種:謊言、該死的謊言和統計數字。」
川妹子也開始琢磨用量化的方法來改進她的主要是靠小道消息的炒股方法。有一天,她神秘地對西門說:「我找到了!」
「找到什麼了?」西門笑瞇瞇地問。
「常勝不敗的投資秘訣,」川妹子說。
「嗯。那可千萬不能告訴我,否則我也去模仿,你的秘訣就會失靈的。」
「我偏要告訴你嘛。我每個月都買入上個月表現第二好的行業裡面表現第二好的股票,持貨一個月,下個月再調整。因為我覺得表現最好的行業和股票已經被人炒高了,所以追進去肯定是死路一條。但是第二好的股票正好可以藉著第一好的衝勁兒。你看跑長跑的,很多時候都是緊緊跟著領先的那個人最後贏。我已經試了三個月,每個月都賺錢。」
「哦,不錯呀!」西門說。
25倍標準差事件
2007年7、8月間,量化基金遭到「血洗」,連平常保持沉默的西蒙斯也不得不給投資人寫信解釋情況。損失最大的基金集中在統計套利這種策略上,很多這類基金同時出現高額虧損,這是比較罕見的。通常即便在市場對某種策略不利的時候,因為各種不同的基金使用的同類策略會各不相同,所以虧損的程度也都會不同。但這一次幾乎所有的統計套利基金都賠得很慘。摩根士丹利的量化基金據說在一天之內賠了超過3.9億美元,遠遠超過風險控制的下限。高盛財務總監說連續數日出現25倍標準差的市場價格變化,高盛的兩隻以量化為主的基金8月分別虧損了23%和30%。有些人驚呼:這是量化基金百年一遇的風暴。也有一位教授冷靜地說:「25倍標準差的市場價格變化?宇宙的年齡都不夠我們觀測到16倍標準差的事件呢!」
很多人認為,這個現象的出現正是因為過多的資金在追隨同一個策略,超出了市場的容量。而在退出的過程中,大家都爭相衝向大門,所以使情況進一步惡化。雖說復興技術公司管理的機構投資人股票基金所受到的虧損小於很多競爭對手的虧損,但是也有人評論說即便是天下最聰明的頭腦也無法對抗變化莫測的市場,而長期資本管理就是前車之鑒。
正是因為西蒙斯過去的成功,很多量化基金紛紛效仿復興技術的各種策略,最後導致它們的頭寸很相似。比如,2007年6月,根據各大基金給美國證交會上報的文件,復興技術的機構投資人股票基金的前10大股票部位裡面有4只股票和另一個專門從事量化投資的基金重疊。隨著當時美國次貸問題的惡化,許多與房屋相關的行業的股票、債券受到影響,按揭證券化資產的價格下跌,給對沖基金貸了很多錢的銀行開始要求收回貸款,並且要求對沖基金增加抵押資產,這使得有些量化基金不得不平倉止損。但是因為它們的部位相似,槓桿通常很高,一家開始平倉會引發連鎖反應,使那些被做空的股票價格螺旋上升,那些被做多的股票價格螺旋下降。
這也說明了一個問題:股票被統計套利盯上本身已經變成了一個風險因素,但是統計套利的複雜模型則沒有考慮到這一點。
在最近5年裡,過去採取超短線高頻統計套利策略的基金,包括復興技術和DE肖爾公司開始使用比較長線的模型,主要是為了增加交易容量,減少流動性風險。但是,使用傳統比較長線的股票多空策略的基金開始使用比較短線的模型,因為它們的技術能力在提高,這樣做也是為了使風險多元化。多空策略基金的數量也大幅度增加。全球很多市場上,共同基金紛紛推出了一類新的基金產品,叫130︰30基金,這類基金可以做空30%的倉位,做多130%,從而保持共同基金淨槓桿最多不超過100%的限制,但是同時又介入了對沖基金的領地:股票多空策略。所有的這些策略,雖說細節各異但都是按照馬科維茨的理論來構建投資組合的,採用的歷史數據大同小異,所以這些林林總總的基金持貨相近不足為奇。即便是那些按照宏觀方法投資的基金也常常會採用類似的理論來構建投資組合,所以當小的波動出現,龐大的人流一起衝向大門時,很多基金會損失慘重。
警鐘還是喪鐘
那這是不是量化投資的喪鐘呢?
前面提到過的高盛量化基金的創始人之一,後來另立門戶單干的量化基金管理人阿斯尼斯在給投資人的信中寫道:「有時候我會聽到人們用很概括的話說:『(看,這正說明電腦模型是要賠錢的。』這句話沒有錯,電腦模型賠了錢。沒有一個永遠不賠錢的電腦模型。最近的事件並不能說明模型出了問題,而只是說明某個交易策略過分擁擠。在過去,很多量化的和非量化的投資策略也出現過類似的問題,當大家都擠著要出門的時候免不了會有傷痛。」
對於統計套利策略的相似性,一位復興技術的管理人員在接受採訪時說:「當你認為自己找到了靈丹妙藥的時候,別人可能也找到了。」但是他說各種統計套利策略之間的關聯繫數並不像媒體報道的那樣高,只有15%左右,問題的關鍵是很多基金採取很高的槓桿,新的基金又在不斷加入,所以這種策略整體風險增高。當市場處在非常時期,螢光屏上的價格不再有什麼意義,因為流動性沒有了。壓水花的技術再好,也需要水呀。
我們認為,不能因為統計套利策略的失敗而將所有的量化投資行業一棍子打死。隨著這個行業的發展,現在很多量化投資技術不再是復興技術、大本營或者DE肖爾的專利,很多共同基金也使用各種量化投資方法,當然共同基金一般不會用很高的槓桿或者用風險比較高的策略。比較常見的用於共同基金的量化技術包括中長期的趨勢追蹤、依靠公式來選股的價值投資模型(還記得我們前面說過的法瑪回報因子吧)、使用布萊克-舒爾斯-默頓方法的保本技術模型(即上一章說過的投資組合保險)、使用馬科維茨的方法來自動進行行業間的配置和資產配置調整技術,等等。
最近一兩年,量化投資經常出現在報紙上,但一般都是在負面的報道中,人們把從市場波動性到股票沽空的壓力再到整個金融危機都歸咎於量化投資,這當然是有失公允的。很多使用量化投資的共同基金並沒有給市場帶來任何破壞,而是為投資人提供了進一步多元化的選擇,所以是好事。當從事統計套利的量化基金遭到血洗的時候,有人統計,美國25家投資美股的量化共同基金中有19家回報好於標準普爾。共同基金的低槓桿或者無槓桿當然是這些量化投資風險較低的一個重要原因,另外,對沖基金通常使用量化技術來積極交易,而共同基金則使用量化技術來尋找比較長期的機會,這也是它們風險不同的一個原因。
數據挖掘
除了跟算法交易或者高頻交易關係更為緊密的市場容量這個問題之外,量化投資還有另外一個潛在的致命問題,那就是數據挖掘。
數據挖掘指的是從大量的數據中發現潛在的、不明顯的有用信息、模式和趨勢的方法,一般通過計算機完成。在金融行業裡面數據挖掘的目的是通過過去來預測未來,數據挖掘的方法現在被用在很多其他行業,如:消費者習慣、犯罪調查、藥物分析、基因研究等。谷歌公司在你的搜索或者電郵頁面放上相對應的廣告,也是一種數據挖掘。
其實,數據發掘也沒有什麼神秘的,人們研究數據從中尋找規律的行為跟人類使用數據來記錄信息的歷史一樣長。這種方法是在最近30年才有了驚人的發展,原因當然是電腦技術的發展和數據量的大幅提高(而且使用數據的方便程度提高、成本大幅度下降)。將本來是人做的事情交給電腦來做,效率的提高是肯定的。但是隨之出現的一個問題就是過度的挖掘,所以有時候人們提到數據挖掘的時候常常是有貶義的味道:如果你盯著一個東西看久了的話,你就會看到本來不存在的規律。或者套用一句統計學家常說的話:「如果你把數據折磨到一定程度,數據什麼都會招的」。
英文裡面為了區分貶義的數據挖掘,常常將那類有些過頭、缺乏依據的做法叫「數據窺視」。維基百科上有一個關於數據窺視的例子,隨便找367個人,其中肯定有兩個人的出生月份和日子相同,比如張三和李四,都是3月17日出生,數據窺視者就可能會進一步去「挖掘」張三和李四的相似點:老婆姓什麼?愛犬叫什麼?女兒是不是彈鋼琴?等等。掘地三尺,總會發現他們兩個有共同點,比如小學3年級都留過一次級,數據窺視者的結論就是:3月17日出生的人小學3年級留級的可能性比較大。
「牛」市
在量化數據分析中有一個很容易犯的錯誤是數據窺視,將巧合當成規律。牛頭來自維基媒體。
當然我們很容易看出這個結論的可笑之處,但是量化投資的很多分析方法所得出的結論都可能犯同樣的錯誤,不過要發現那些錯誤就不那樣容易了,很多投資人或者基金管理人都是在賠了很多錢之後才發現他們成了數據窺視的受害者。
隨便翻開任何一本量化投資或者技術分析的書,或者翻開銀行以及基金的銷售材料,裡面都有很多這樣或者那樣的模型在過去多少年間是如何盈利的圖表,這類圖表一般都是一條比較平滑的、向上的曲線,代表著你的1元錢的投資如何連蹦帶跳變成十元或者百元的,就像大獎章的歷史投資回報,那也是一條比較平滑、向上的曲線。那麼是不是你如果照本宣科、將書上的策略拿到實際中去投資也能變成巨富呢?或者,你將錢投到銀行、基金的很吸引人的銷售材料所說的產品裡面就能一本萬利呢?當然這是有可能的——就像你今天出門的時候被一麻袋錢絆了個跟頭一樣,這也是有可能的,但可能性都不大。西蒙斯的歷史回報曲線是真實的1美元在歷史上是如何變成600美元的,而絕大部分的書裡面或者銷售材料中的曲線則是模擬出來的。模擬不是欺騙:如果歷史上你真是按照書裡面所說的模型投資的話,如果模型考慮到了各種交易成本的話,你的1美元錢的確能變成圖上畫的幾百美元、幾千美元。關鍵的字眼是「歷史上」:如果時光能夠倒流,你突然回到幾年前,那時候的書本上有著千千萬萬個不同的賺錢模型,那時候銀行或者基金的銷售材料也有很多回報誘人的產品,你會選這個後來能一鳴驚人的產品嗎?如果你知道後面將會出現的結果,你當然會一口認定這個模型。可是當年你不知道的時候呢?今天你面前只有這個過去回報很好的模型來勾引你的原因是:模型的設計人已經根據後來出現的情況把那些你過去可能選擇的但是會賠錢的千千萬萬個模型都扔掉了。換句話說,這個模型只適用於設計人所選擇的367個人中的張三和李四,模型的結論很可能是通過數據窺視得出來的。
量化分析的過程其實就是通過過去的數據窺視將來的過程,所以數據窺視的問題是不可避免的但是這並不意味著各種通過挖掘或者窺視得到的結論是一樣有效或者無效的。統計學裡面有各種工具可以幫助設計者減少窺視的可能性,這裡我們就不詳細說了,把它留作將來西門解釋給川妹子的話題之一吧。對於量化基金的管理人、那些想要設計量化投資模型的人和各類想要投資量化產品的投資者來說,這是他們首先要處理的最重要的問題。憑借判斷來投資的方法沒有這個問題,因為靠的都是管理人的判斷,所以你要看管理人過去的成績(投資實證研究的結果對基金管理人過去的表現和將來表現的關係也沒有定論,大致說,共同基金過去的表現基本和未來沒有關係,對沖基金有一些正面的關係。),但是量化投資方法則可以算出各種歷史的「可能」回報,所以窺視的問題到處都是。
也許正是因為量化基金能夠提供各種歷史數據來支持,所以過去20年中它日益被投資者認同,有的投資人還覺得跟那些交易員出身、驕傲自大的判斷型管理人相比,量化基金可能更穩妥一些。但是我們不能忘記量化投資的潛在問題:它依賴的是歷史數據和歷史關係,而歷史,既可能重複,也可能更改。
第8章 誰有下一個點石成金的手指
有一天西門和川妹子見面的時候好像心不在焉,川妹子知道他心裡有事,就讓他直接說出來,反正兵來將擋,水來土掩,沒什麼大不了的。西門鎖著眉頭說領導今天跟他談話,準備讓他去紐約工作,他們公司不久前在那邊開了分支機構。
「那不是挺好嗎?」川妹子興沖沖地說,雖說她的心頭也有一絲陰雲。她接著問西門去了以後會不會提拔,會不會漲工資,西門都點點頭。川妹子笑著說:「又有官升,又有錢賺,多好啊!」
西門看著她,沒有笑,說:「可是一去就是四年!也不知道能不能帶你一起去。」
川妹子聽了心裡一熱,說:「四年又不長。這樣好的機會,要是我的話我就去。再說,我哪裡能去紐約?有你這句話就行了。等你四年回來如果還想見我的話,我還是在這裡。」說著說著,川妹子鼻頭一酸。
西門拉著她的手,沒有說話。
後來他們嘀嘀咕咕分析了半天利弊,最後西門說明天再去跟領導談談。
第二天,川妹子上班的時候壓根兒就沒有心思看過往的名人。
晚上,她跟西門見面的時候強打精神,但是她的心裡空空的。西門見了她說:「我有兩件事要說。第一,我已經告訴領導我不去了。我要聲明,不是因為你,而是因為我覺得我所從事的量化投資工作在中國市場的前景更好。」
川妹子點點頭。又問:「那第二件呢?」