在问题记录里详细描述了这个问题,并截图了异常编码的样本。这已经不是简单的清洗能解决的,需要业务方确认编码规则,或者至少明确哪些编码是有效的,哪些是无效的、需要如何处理。
他整理了一下问题,带着笔记本去找王海。
王海正在小会议室里打电话,门虚掩着。陈默站在门口等了一会儿。听到王海对着电话说:“……李总您放心,我们这边全力推进,初步分析很快就能出来……对,我们很重视,专门抽调了精干力量……明白,保持沟通……”
又等了几分钟,王海挂了电话出来,看到陈默,脸上还带着讲电话时的笑容:“默默,什么事?数据弄好了?”
“还没有。遇到个问题,需要确认。”陈默把笔记本屏幕转向他,指着那个编码混乱的问题,“这个字段很关键,后续分类汇总和分析都依赖它。但现在数据里编码很乱,跟给的码表对不上。可能需要联系天晟那边,确认一下准确的编码规则,或者提供一份最新的码表。不然清洗后的数据,这个字段不可用。”
王海凑近看了看陈默指出的那些异常样本,眉头皱了起来。他手指在屏幕上敲了敲:“这么多乱七八糟的?”
“嗯,比例不低。而且分散在不同时间段,不像是偶然错误。”陈默说。
王海直起身,摸着下巴,思考了几秒钟。“联系天晟……他们那边IT对接人你又不是不知道,效率低,问个问题三天不回。而且这种细节问题,去问他们,显得我们水平不够,连个数据清洗都搞不定。”他摇摇头,“时间不等人。这样,你先按他们给的那个旧码表来,能对上的就归类,对不上的……”他顿了顿,“对不上的,你先统一归到一个‘其他’或者‘未知’类别里。标注一下比例。我们分析的时候,可以暂时把这类‘未知’交易单独拿出来看,或者按比例分摊到已知类别里做个估算。先把主干数据跑通,出个初步方向。细节问题,等后面深入分析的时候,有必要再去问。”
陈默看着王海:“
本章未完,请点击"下一页"继续阅读! 第5页 / 共7页