00小说网 > 都市言情 > 股海弄潮 > 第248章:处理“幸存者偏差”
最新网址:www.00shu.la
    那些已经消失的公司

    2011年3月15日,星期二,下午两点二十分。

    车公庙,三十平米的办公室。

    窗外的春天已经来了,但办公室里的人感觉不到。四面墙还是那四面墙,二手服务器还是那几台,墙上的流程图还是那些字。唯一的变化是,堆在角落里的资料又多了一倍。

    周寻坐在电脑前,盯着屏幕上的回测结果,眉头皱成一个“川”字。

    这已经是今天第三次跑同一个策略了。三次的结果都不一样。

    第一次:年化收益18.7%

    第二次:年化收益16.2%

    第三次:年化收益19.3%

    波动这么大,显然有问题。

    “陆方,”他喊了一声,“你过来看看这个。”

    陆方从另一台电脑前站起来,走过来。

    周寻指着屏幕上的回测结果:

    “同一个策略,参数没变,区间没变,为什么三次结果不一样?”

    陆方看了几秒,脸色变了。

    他走回自己的电脑前,调出一段代码,然后愣住了。

    “周老师,”他的声音有些发涩,“我们的回测数据里,没有包含已经退市的公司。”

    周寻愣了一下。

    “什么?”

    陆方指着屏幕:

    “我当初爬数据的时候,只爬了‘当前还存在’的公司。那些已经退市的、被借壳的、破产的……都没有。”

    他顿了顿:

    “所以回测的时候,系统只能看到现在还活着的公司。那些死掉的,从来没出现在数据里。”

    房间里安静了几秒。

    小林第一个反应过来:

    “那……那我们的回测结果,不是偏高了?”

    周寻点了点头,脸色很难看。

    “这就是‘幸存者偏差’。”

    他走到白板前,拿起笔,写下几个字:

    幸存者偏差

    “只看到活下来的,看不到死掉的。看到的都是成功案例,看不到失败案例。用这样的数据做回测,结果一定是偏乐观的。”

    他转过身,看着所有人:

    “你们想想,如果我们的策略,恰好喜欢选那些后来死掉的公司——但在回测数据里,那些公司根本不存在,那回测会显示什么?”

    小林脱口而出:

    “会显示这个策略很好,因为选的都是活下来的……”

    “对。”周寻说,“但实盘呢?实盘里那些公司还在,选了它们,就会亏钱。”

    陈默从角落里站起来,走到白板前。

    他看着那四个字,沉默了几秒。

    然后他问:

    “这个问题,有多大?”

    周寻想了想:

    “可能很大。具体多大,要看我们的策略偏好。”

    他走到电脑前,调出一张图:

    “这是A股过去十年的退市数据。2001年到2010年,一共有多少家公司退市?”

    他敲了几下键盘。

    屏幕上跳出一个数字:

    187家

    “187家。”周寻说,“平均每年18.7家。这些公司,在我们的数据里,一个都没有。”

    他顿了顿:

    “如果我们的策略,恰好偏好那些后来退市的公司——比如喜欢炒垃圾股、炒ST股——那回测结果和实盘结果的差距,会大得惊人。”

    陈默盯着那个数字。

    187家。

    187个曾经存在过的名字,187个曾经让投资者亏过钱的故事,187个被遗忘的失败案例。

    而现在,它们被排除在数据之外,好像从未存在过。

    “陆方,”他问,“这个问题,能解决吗?”

    陆方想了想:

    “能。但要重新爬数据。”

    他看着陈默:

    “需要把所有退市公司的历史数据都找回来。包括它们还在市场上的时候的交易数据、财务数据。”

    他顿了顿:

    “有些公司退市很多年了,数据可能很难找。”

    陈默沉默了几秒。

    然后他说:

    “找。不管多难,都要找。”

    他看着所有人:

    “我们不能只看活下来的。那些死掉的,才是真正的老师。”

    ---

    下午四点,陆方开始研究怎么爬退市公司的数据。

    他在几个数据源之间切换,眉头越皱越紧。

    “周老师,”他喊,“您过来看看。”

    周寻走过去。

    陆方指着屏幕:

    “有些公司的数据,能查到。像那些被借壳的,虽然壳换了,但历史数据还在。”

    他往下翻:

    “但有些,是真的查不到了。特别是2005年之前退市的,很多数据源根本没有保留。”

    周寻沉默了几秒。

    然后他说:

    “能查到多少算多少。查不到的,想办法从其他渠道找。实在找不到的,也要知道‘有这家公司存在过’,不能假装它们不存在。”

    陆方点头。

    小林在旁边举手:

    “周老师,那些找不到数据的公司,我们怎么处理?”

    周寻想了想:

    “两种办法。”

    他走到白板前,写:

    方法一:用同类公司替代

    “找不到具体数据的,可以用那个时期、那个行业的同类公司数据做近似替代。虽然不精确,但至少能反映一个大致水平。”

    方法二:做敏感性分析

    “假设这些找不到数据的公司,表现比我们查到的差。差多少?10%?20%?跑几个不同的假设,看结果变化有多大。”

    他放下笔:

    “目的不是精确还原历史,是知道我们可能‘偏’了多少。”

    小林点头,在本子上记着。

    ---

    傍晚六点,陆方还在研究那些退市公司的名单。

    他已经找到了87家公司的历史数据。还剩100家,怎么也找不到。

    屏幕上,是那100家公司的名字——或者说,是曾经存在过的名字。

    ST红光、PT水仙、ST九州、ST银广夏、ST生态、ST猴王……

    有些名字,陆方听说过。那是当年轰动一时的造假案、退市案的主角。有些名字,他完全陌生,只是一个个冰冷的代码。

    他盯着那些名字,忽然有一种奇怪的感觉。

    这些公司,曾经也是无数人的希望。

    有人在这里投过钱,有人在这里亏过钱,有人在这里赚过钱然后亏回去,有人在这里把一辈子的积蓄赔光。

    现在,它们只是回测系统里需要补上的“数据缺口”。

    “陆方,”周寻走过来,“还在看?”

    陆方点头。

    “想什么呢?”

    陆方想了想:

    “在想,如果2008年我们破产了,现在会不会也在某个数据源的‘已退市’列表里。”

    周寻愣了一下。

    然后他轻声说:

    “也许吧。”

    他走到窗边,看着外面车公庙的夜色:

    “但我们现在还在这里。”

    陆方没有说话。

    他转回头,继续看那些名字。

    然后他打开一个文档,开始记录:

    “退市公司补录进度:已找到87家,待找100家。预计完成时间:未知。”

    他顿了顿,又在下面加了一行:

    “那些已经消失的公司,值得被记住。”

    ---

    晚上八点,陈默回到办公室。

    他看到陆方还在,周寻也在。

    “还没走?”他问。

    陆方抬起头:

    “在整理退市公司的名单。有些实在找不到。”

    陈默走过去,看着屏幕上那长长的列表。

    那些陌生的代码,那些曾经存在过的名字。

    他忽然想起2001年的一件事。

    那一年,他买过一只股票,叫“银广夏”。那时候它还风光无限,是市场的明星。他赚了点钱,卖掉了。

    后来,银广夏被查出财务造假,股价从30多块跌到2块多,最后退市。

    那些没卖掉的人,亏得倾家荡产。

    陈默看着那个名字,沉默了很久。

    “陆方,”他忽然说,“你知道银广夏吗?”

    陆方点头:“听说过。当年的大案。”

    陈默指着那个名字:

    “我买过。”

    陆方抬起头,看着他。

    陈默继续说:

    “2000年买的,2001年初卖的。赚了点钱。后来它爆雷,退市。那些在最高点买入的人,亏了90%以上。”

    他顿了顿:

    “如果我的策略,在2000年选了银广夏,回测会显示什么?会显示我赚钱了。因为2000年它还在涨。但2001年之后呢?那些数据,在我的回测里,可能根本不存在。”

    他看着陆方:

    “所以,你说的对。这些公司,必须补进来。不管数据多难找,都要找。”

    陆方点了点头。

    他低下头,继续敲键盘。

    屏幕上,那些名字一个一个闪过。

    每一个名字背后,都有一个故事。

    有些故事已经被人遗忘。

    但在这个三十平米的办公室里,有人正在把它们重新记起来。

    ---

    深夜十一点,陆方终于找到了第88家退市公司的数据。

    是一家叫“ST红光”的公司,1997年上市,2004年退市。数据藏在某个老旧的数据库里,用了三个代理IP才爬下来。

    他看着屏幕上那一条条K线,从上市到退市,七年的时间,浓缩成一个长长的、向下的曲线。

    上市时6块,最高冲到12块,然后一路下跌。最后退市的时候,股价0.8元。

    那些在12块买入的人,亏了93%。

    陆方盯着那条曲线,看了很久。

    然后他打开一个文件夹,把这份数据存了进去。

    文件夹的名字叫:

    “那些已经消失的公司”
最新网址:www.00shu.la