设置

关灯

第4章 初步整理(第2节)

务必仔细。时间节点:4个工作日后提交初步清洗后数据。”

陈默快速浏览了一遍。要求不算特别复杂,但数据量大、原始、杂乱的话,工作量会很大,而且需要极度仔细,一个字段处理不当,可能就会埋下雷。他看了一眼那个正在读取的U盘,指示灯还在闪烁。他点开“我的电脑”,找到新出现的盘符,双击打开。

里面塞满了文件和文件夹。名字都很随意:“data_part1.xlsx”、“天晟导出_0321.rar”、“logfiles_week12.zip”、“未命名文件夹”、“temp_old”。没有清晰的结构。陈默皱了下眉,点开那个最大的Excel文件。文件打开得很慢,进度条一点点往前爬。

终于打开了。密密麻麻的单元格,一眼望不到边。列数很多,很多列名是英文缩写,有些干脆是“Column_A”、“Field_1”这样的默认名。数据格式混乱,同一列里,有的是数字,有的是文本,有的单元格是“N/A”,有的是“NULL”,有的是空白。日期格式五花八门,有些看起来像日期,但实际是文本。还有大量重复的记录。

陈默滚动着鼠标滚轮,大致扫了几屏。他关了文件,又点开几个其他的CSV和文本文件。情况大同小异。数据确实“原始”,而且混乱程度比他预想的要高。这不仅仅是清洗,先得花时间理解这些数据到底是什么,哪些是垃圾,哪些是有效信息,各个文件之间有什么关联。

他拿起桌上的笔记本和笔,快速记下几个关键问题和需要确认的点。然后站起身,走到李涛的工位。

李涛正戴着耳机,手指在键盘上飞快敲打,屏幕上是代码编辑器,花花绿绿的字符滚动。陈默敲了敲他的隔板。

李涛没反应,专注地盯着屏幕。

陈默提高声音:“李涛。”

李涛这才猛地转头,扯下一只耳机,脸上带着被打断的不耐烦:“啊?咋了?”

“王组说,让

本章未完,请点击"下一页"继续阅读! 第2页 / 共7页