股海弄潮最新章节_天门山的魅狐-第236章：第一个“因子”的寻找(第1节)TXT全集下载-醉书楼手机阅读

方看了他几秒，然后点了点头。

没再说别的。

---

周寻的第一个任务：定标准。

爬虫爬下来的数据，乱七八糟。

同一天，不同网站的开盘价可能差几分钱。同一只股票，不同年份的股本可能变过好几次，不复权、前复权、后复权，根本对不上。财务数据更乱——有的公司用旧会计准则，有的用新会计准则；有的报表里“净利润”是归属于母公司的，有的是合并报表的；有的“每股收益”是摊薄的，有的是加权的。

周寻拿着一份自己整理的《数据清洗标准手册》，对着那一堆原始数据，一条一条核对。

“这里，”他指着屏幕，“2005年6月30日，招商银行。三个来源的数据，两个说收盘价是6.52，一个说是6.55。差三分钱。”

陈默凑过去看。

“三分钱，影响大吗？”

周寻摇头：

“单看一天，不大。但如果用来算年化收益，差之毫厘，谬以千里。”

他顿了顿：

“而且，如果三分钱的误差是系统性的，那整个回测结果都会偏。”

陈默沉默了几秒。

然后他问：

“那怎么办？”

周寻想了想：

“找第四个来源。如果还是对不上，就取中位数。然后把这个问题记下来，以后做敏感性分析。”

他看着陈默：

“所有类似的问题，都要记下来。不能假装不存在。”

陈默点头。

他拿起一支笔，在笔记本上写下第一行：

“数据问题清单”

下面，他写：

1. 2005.6.30 招商银行收盘价三个来源不一致 (6.52/6.55) 处理：取中位数6.53

2. ……

这本笔记本，后来成了“默石数据

本章未完，请点击"下一页"继续阅读！第3页 / 共7页

股海弄潮全文阅读