多恶心。
那些网站的反爬机制五花八门——有的限制IP访问频率,有的用动态加载,有的在数据里掺假,有的直接封IP。陆方写了三天,被反爬机制封了七次。他不得不写一个代理池,每天从网上找几百个免费代理IP,轮着用。
“这些网站,”他一边敲键盘一边嘟囔,“不让爬就算了,还在数据里掺假。我昨天爬下来的平安银行,有一天的收盘价居然是88.88。明显是故意埋的坑。”
陈默站在他身后,看着屏幕上那些代码。
他不完全懂,但他能看懂陆方脸上的表情——不是烦躁,是专注。
那种“我一定要搞定你”的专注。
“能处理吗?”他问。
陆方点头:
“能。但得加一个清洗层。把所有明显异常的数据标记出来,回头人工核对。”
“需要多少人?”
陆方想了想:
“至少两个。专门干这个。”
陈默看了看房间里的人。
小林在研究周寻给的论文,小吴在整理过去的研究笔记,小周在学Python,王涛在调试那两台服务器。赵姐在算账,老刘在联系便宜的云服务商。
没有人闲着。
但也没有人能专门做数据清洗。
陈默沉默了几秒。
然后他说:
“我来。”
陆方抬起头,看着他。
“您?”
“我。”陈默说,“我干过这个。”
他走到那堆打印出来的Excel表格前,坐下来:
“1992年,我刚入市的时候,没有电脑,没有软件。所有的K线图,都是我手画的。每一根K线,开盘、收盘、最高、最低,一个一个从报纸上抄下来,然后用尺子画在坐标纸上。”
他看着陆方:
“现在有Excel了。比那时候强多了。”
陆
本章未完,请点击"下一页"继续阅读! 第2页 / 共7页