设置

关灯

第4章 初步整理(第3节)

你把那个客户画像的数据字段说明发我一份,天晟项目用。”陈默说。

“哦,那个啊。”李涛脸上的不耐收敛了点,但也没多少热情,他切了下屏幕,找到一个文件,快速操作几下,“发你邮箱了。不过那个说明是咱们自己内部项目的标准,天晟的数据不一定对得上,你参考着看吧。”

“行,谢了。”陈默点头,准备回去。

“哎,等等,”李涛叫住他,身体往椅背上一靠,挑了下眉,“天晟那个烂摊子,丢给你了?”

“王组让我做初步整理。”陈默说。

“啧,”李涛发出一声意味不明的声音,摇摇头,声音压低了些,“那堆数据,我之前瞟过一眼,一塌糊涂。天晟那边IT水平就那样,导出来的东西能看就不错了。王头儿这是想快点出活,又不想自己碰这脏活累活。你悠着点,这玩意费时费力不出彩,还容易背锅。做得再干净,也就是个基础,后面分析出彩了是别人的,分析出问题了,搞不好第一个查你数据源头。”

陈默没接这话茬,只说:“我先做着看看。”

“行吧,你加油。”李涛耸耸肩,又把耳机戴了回去,重新面对他的代码。

陈默回到自己座位,收到了李涛发来的字段说明文档。他打开快速看了一下,然后深吸一口气,关掉所有不必要的程序,新建了一个项目文件夹,按照自己的习惯建立子文件夹:原始数据、过程文件、清洗规则记录、问题记录、输出数据。

他先不急着处理,而是花了一个多小时,把所有U盘里的文件大致浏览了一遍,记下每个文件的大小、大概行数列数、可能的关联字段。在笔记本上画了一个简单的关系图。然后,他开始尝试整理那些混乱的字段名。对照着天晟之前给过的零星文档(在公共盘某个角落找到的),以及李涛发来的参考说明,他逐一猜测、标注那些意义不明的列名。这个过程很慢,需要不断的搜索、比对、推测。遇到实在不确定的,他在问题记录文件里标红,记下文件名和列名。

本章未完,请点击"下一页"继续阅读! 第3页 / 共7页