天才一秒记住【热天中文网】地址:https://www.rtzw.net
于是纷纷开始偷偷搞自己的“小样本分析”
。
林眠自己,则快速写了一个极其简单的数据质量检查脚本,能快速跑出数据缺失率、异常值比例等基本指标。
做完这一切,他就像什么也没发生一样,戴上降噪耳机,开始…继续写“凤凰”
项目的代码。
仿佛外面的兵荒马乱与他无关。
然而,效应开始显现。
小李把知识库关于“天眼”
数据质量问题的记录截图发给了王主管。
小张把一份需要他确认资源配置的草案塞给了王主管。
几个同事开始不停地来问王主管:“主管,我抽的样本好像没问题?”
“不对啊,我抽的这部分数据全是乱的!”
“这该怎么算?”
王主管被这些“请示”
搞得焦头烂额,他本想简单粗暴地让大家“别废话赶紧干”
,但面对具体的技术问题和选择,他又不甚了了,支支吾吾,无法做出有效决策,只能不停地说“再看看”
、“先做着”
。
混乱进一步升级。
原本可能勉强进行下去的“蛮干”
节奏,被彻底打乱。
人们陷入了无休止的、低效的讨论、请示和各自为政的摸索中。
半小时后,林眠将他那个简单的数据质量脚本共享到了群里,附言:“写了个简单脚本,可快速检查数据基本质量,仅供参考。”
立刻有人拿去试了。
“卧槽!
缺失率45!”
“异常值爆表!
这数据没法用啊!”
“这核对什么?核对了个寂寞?”
抱怨的方向变了,从抱怨加班,变成了抱怨数据垃圾、任务荒谬。
王主管的脸色越来越难看。
林眠看着时机差不多了,在群里了王主管,并附上了一份简洁的汇总:“王主管,根据多位同事的样本抽查以及脚本快速扫描结果,‘天眼’项目历史数据质量极差,缺失率与异常率均超过可用标准。
进行全量核对清洗所需投入巨大,且产出价值未知。
建议:要么放弃此次核对;要么仅抽取极小部分相对完整数据进行象征性分析,用于明日汇报。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!