我们分析数据,更重要的是看到数据中所隐藏的前瞻价值和本身的定位,即数据图中你看不见的数据机构关系、逻辑知识以及商业化进程的价值。在分析数据之前,有一个非常重要的事情,大家往往会忽略,那就是数据的置信度是多少?以及这个大数据的分析完成后能价值多少?往往是开发及研发人员或者商业团队未成考虑完善的一个问题。
数据的价值
如果数据的准确性本身存在问题,那能产出正确结果的概率与买彩票中奖的概率大概相差无几,其商业的价值也就无可厚非的降低。即便数据是准确地,那还得证明数据具有代表性,你应当抽取了部分的抽样标本数据,很多时候,你必须要进行抽样,那你更要谨慎了,因素那么多,你要保证自己在数据采样过程中,考虑了应该考虑的因素。这些数据对于这个结论很具有代表性,对于另一个分析目的却有可能完全没有代表性,这些都不能一概而论,建议是多批次的抽样并随机性的抽取。总之,数据准确性这个问题基本上要在分析之前给出确定的答案,但是这也是数据正确参考必然经过的问题。而数据是否具有代表性这个问题由于比较复杂,尽可能的在分析之前考虑清楚的同时,在分析过程中,一定要随时保持着质疑精神,每向前一步,都要重新考虑数据样本是否还具有代表性。
我们曾今在数据数组的分析中,一套7200万行的数据运行在SQL2008R2的环境中,由于抽检数据的不完整型和过度相信自己的数据没有瑕疵,导致数据在5500万行至6500万行之间出现了数据的错位和解析的异常,整个数据在后期封包处理后才被发现,这就极大的造成了我们在商业定位和自身数据处理价值的困惑和麻烦。
领取专属 10元无门槛券
私享最新 技术干货