数据监控分析模型研究
统计中心
小伙伴们,还记得当年的挑灯夜战吗?
团员:2人
党员: 7人
35周岁以下青年8人
青年比例80%
实
施
背
景
目前,计量器具动态巡检小组利用实施数据库、PHD趋势软件、Excel取数软件等,推行了以线上巡检为主,现场巡检为辅的计量器具动态管理,为计量器具故障的及时发现提供了有效的手段。但在计量数据分析领域,其只能实时反映一个计量点的量是否正常,以及对于该点历史趋势的追溯,但不能判断数据是否准确。
实
施
方
案
头
脑
风
暴
实
施
过
程
选取研究对象
1
正态分布模型的应用
正态分布3σ原则为
数值分布在(μ-σ,μ+σ)中的概率为0.6827
数值分布在(μ-2σ,μ+2σ)中的概率为0.9545
数值分布在(μ-3σ,μ+3σ)中的概率为0.9973
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。
现有的进出厂数据以单批次流量计、商检量、罐发量为基础,我们尽可能利用这些单批次数据来估计总体的数据分布。
柴油
航煤
从两者的正态分布数据可以看出两个数据的在(μ-3σ,μ+3σ)的概率比较高,集中度比较大。但是化工出厂数据与机械标准不同,测量数据的准确度受温度、压力、物料特性等情况影响比较多,也有数据超出了范围外,但是总体来说,大部分数据还是在范围内的,后续将3σ作为置信区间。出口柴油共108船,在(μ-3σ,μ+3σ)区间内共105船,占比97.22%;在(μ-2σ,μ+2σ) 区间内共103船,占比95.37%;在(μ-σ,μ+σ) 区间内共81船,占比75%。出口航煤共155船,在(μ-3σ,μ+3σ) 区间内共154船,占比99.35%;在(μ-2σ,μ+2σ) 区间内共145船,占比93.54%;在(μ-σ,μ+σ)共113船,占比73.38%。从数据上看,是满足正态分布的。
为了控制数据的准确性,同时用历史数据预测未来数据,常以3σ作为上、下警戒值,即控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。所以在之前正态分布的基础上,我们以2015-2017年的差率数据作为正态分布置信区间的基础,用2018年的数据作为验证,发现数据走向是符合预测范围的。
2
多元回归的应用
利用统计软件建立回归模型,全年通过对每日的天然气组分的分析,发现问题,解决问题,节约成本约248万元。
实
施
成
果
通过课题研究我们发现:正态分布模型可以用来预测数据走向,且不同物料的实际置信范围各不相同,随着数据库的增加,准确性将不断提高;多元回归模型则从影响因素的角度对计量数据的可信区间进行预测,为数据准确性判断提供了另一种手段。
后续工作
发散思维,继续
未来将引入置信区间的概念,对每天的计量数据进行自动判断,用判断结果来协助我们找到准确性较差的数据,为异常分析指明方向。
在路上
2019
领取专属 10元无门槛券
私享最新 技术干货