发布日期 2021-04-09

如何考虑大数据建立初期的数据质量监控?

原标题:如何考虑大数据建立初期的数据质量监控?

因为大数据涉及的内容非常复杂,很多业务范围,甚至市场人员也未必能说清楚。例如,王小强想计算CRBT昨天的收入。那么什么样的用户叫做CRBT用户呢?是指已订阅CRBT服务的用户,还是指已使用CRBT服务的用户?所谓收入是指应收收入还是实收收入?这些不同的口径将导致计算结果的巨大差异,王小强可能无法完全解释它所需要的统计口径。

口径一旦确定,数据必须准确。还有一个时间窗的问题。比如昨天的时间是指晚上12点吗?那么,那些12点还没批的收入算不算?……

幸运的是,在确定口径后,我们可以比较相对值,看到CRBT市场的真实变化。

同样,在大数据处理过程中,也会出现很多数据质量问题,其中80%都是由这种口径差异造成的。所以市场人员看到结果数据,有时候会质疑数据是否准确;而数据分析师要正确面对这个挑战,用技术手段证明自己的数据没有错误,分析结果真实可靠。

在大数据投入使用的初期,有时会出现“假数据真分析”。虚假数据的原因很多,主要是缺乏检查和审计手段。一些数据源提供者有时有意或无意地提供一些改进的数据来“打包”他们自己的业务性能。兰承股票网

大数据建立之初,就要考虑数据质量的监控,通过多维度、多角度的数据检测规则,及时识别假数据。

聚合阅读