设置

关灯

第236章:第一个“因子”的寻找(第3节)

方看了他几秒,然后点了点头。

没再说别的。

---

周寻的第一个任务:定标准。

爬虫爬下来的数据,乱七八糟。

同一天,不同网站的开盘价可能差几分钱。同一只股票,不同年份的股本可能变过好几次,不复权、前复权、后复权,根本对不上。财务数据更乱——有的公司用旧会计准则,有的用新会计准则;有的报表里“净利润”是归属于母公司的,有的是合并报表的;有的“每股收益”是摊薄的,有的是加权的。

周寻拿着一份自己整理的《数据清洗标准手册》,对着那一堆原始数据,一条一条核对。

“这里,”他指着屏幕,“2005年6月30日,招商银行。三个来源的数据,两个说收盘价是6.52,一个说是6.55。差三分钱。”

陈默凑过去看。

“三分钱,影响大吗?”

周寻摇头:

“单看一天,不大。但如果用来算年化收益,差之毫厘,谬以千里。”

他顿了顿:

“而且,如果三分钱的误差是系统性的,那整个回测结果都会偏。”

陈默沉默了几秒。

然后他问:

“那怎么办?”

周寻想了想:

“找第四个来源。如果还是对不上,就取中位数。然后把这个问题记下来,以后做敏感性分析。”

他看着陈默:

“所有类似的问题,都要记下来。不能假装不存在。”

陈默点头。

他拿起一支笔,在笔记本上写下第一行:

“数据问题清单”

下面,他写:

1. 2005.6.30 招商银行 收盘价 三个来源不一致 (6.52/6.55) 处理:取中位数6.53

2. ……

这本笔记本,后来成了“默石数据

本章未完,请点击"下一页"继续阅读! 第3页 / 共7页