到底大数据分析是怎么回事儿?有多高端?有多大气?有多上档次?
我们今天就以轮胎工艺流程为例,来看看DELMIA OI大数据分析的原理是什么。
1.背景介绍
世界上最伟大的发明是什么?轮子。没有轮子,你的汽车能跑起来?你的自行车都跑不起来。我们今天来聊聊轮胎工艺大数据。
汽车装了轮胎,你的身家性命可都是在上面跑的。而且不是一天,而是几年!轮胎出了质量问题是这样的:
结果可能是这样的:
在轮胎传统工艺生产过程中,制造商通常会遇到三个挑战:无法解释的缺陷、如何更有效地制造复杂的产品、过程控制困难导致产品质量不稳定和返工。
针对以上三种挑战,DELMIA OI提供了一套数据分析解决流程方案:
从收集材料、工艺和质量数据→
通过数据分析快速识别失败的根本原因→
与制造商工艺专家共同审查新规则→
发布与共享新生产参数规则→
不断的评估和改善
你一定好奇DELMIA OI里面的大数据分析、机器学习是怎么做到的。今天我们就管窥一豹,用R语言来再现DELMIA OI的分析思路。真正的DELMIA OI要复杂先进很多,这里只谈BASIC的思路。
2. 数据分析流程原理介绍(基于R语言)
2.1 数据获取
以上数据集涉及31个原材料与加工流程中的自变量和最终的因变量轮胎质量,可以由DELMIAOI收集。
变量简介说明如下:
如表所示,此数据集中共有32个变量,其中Quality为因变量,即“Rework”和“OK”,所以因变量为类别型变量。在31个自变量中,数值型、类别型变量同时存在,所以在回归模型的选择上,Logistic Regression(逻辑回归)是最适合本数据集的回归模型。在使用回归模型前,首先要对自变量进行清洗和建模,因为数据的缺失值、变量间的相关性都会对结果产生很大影响。
2.2 数据清洗
首先在R语言装入要使用的扩展包,并导入原数据集。
通过代码对原始csv进行了读取,打开数据集我们发现Time Exposure1 和Time Exposure 2存在大量的缺失值,所以先将此两个变量删除。
然后将变量中是类别型变量的进行编码,对此数据集,类别型变量编码如下:
编码之后,因为自变量数目较多,所以首先要确定变量间是否存在相关性,对存在相关性的变量要进行建模来合并。
通过以上代码,可以得到如下图片:
如上图所示,右下角Quality为因变量,在和其他自变量组成的方格由不同的颜色进行标注。蓝色代表呈正相关,红色代表负相关,颜色深度代表了相关性的强弱。可以看出,Quality与其他自变量存在或强或弱的正负相关性,说明这些采集到的工艺流程上的数据确实会对质量的好坏产生影响。另外还可以看出,很多自变量之间也存在着极强的相关性。比如ResinViscosity T0、T1、T2三个变量之间存在很强的正相关性。如果将存在共线性的变量不加清洗的全部带入回归模型进行分析,会导致结果不准确。
TargetWinding Tension变量呈白色,表明和所有自变量和因变量没有相关性,检查数据集发现TargetWinding Tension是一个固定值,所以将此变量删除。
附上更清晰的变量相关性统计图:
为找出哪些相关性变量可以进行整合,接下来必须要进行的是变量降维处理,本文采用Principle Component Analysis主成分分析法,它是一种数据降维技巧,能将大量的相关变量转化为一组很少的不相关变量,这些无关变量成为主成分。
因为本文只涉及数据分析流程讲解,所以只采用不旋转的主成分分析,代码如上,结果如下所示:
此图表示,由主成分分析内部算法推荐,此32个变量建议分为5大类,具体分类如下所示:
从图中可以看出,31个自变量可以被划分为五大类,其中:
Resin Viscosity T0、T1、T2;
Min Winding Tension与Max Winding Tension;
Vacuum Level 1与VacuumLevel 2;
MinResin Content与Max Resin Content;
因为此数据集中数据量只有57条,所以无法进行更复杂合理的建模处理,本文以求平均值来生成新模型变量。
2.3 建模分析
数据清洗过后,进入建模分析步骤,如果要确定哪些工艺流程上的变量对轮胎质量结果有显著性的影响,回归模型分析是不可或缺的一步,因为本数据集涉及了类别型自变量与因变量,选取逻辑回归模型。并且变量数目过多,数据集小,采取逐步回归模型,代码如下:
最终此模型得出的显著变量如下表所示:
我们选取其中Fiber Expiration Time和 TransitionTemperature两个变量来看一下,好轮胎和坏轮胎的分布图:
蓝色线代表“OK”质量轮胎,红色线代表“REWORK”质量轮胎。由图可以看出在两种结果的轮胎中,此两个变量的分布区间有一定的重合和区分,也就是说参数的设定会对轮胎质量结果有所影响。因此在下一步,我们给出以上显著变量的参数区间。
3. 结果与建议
通过将质量按OK与REWORK分类,用t检验求出以上显著变量的95%置信参数区间如下表:
根据此表,可以看出一些变量区间存在交叉,一些变量的区间差别很明显比如Curing ramp up duration变量,好轮胎和坏轮胎的参数设置区间完全不一样;再比如AutoclaveCycle在处于A模式时全部失败,处于B模式时由73.33%的概率生产出来好轮胎。
根据本文数据和结果,如果此轮胎制造企业想减少轮胎次品率,建议如下:
1.Fiber Expiration Time:建议选择纤维过期时间参数在17.97到20.21之间的原材料;
2.Resin Storage Time:建议选择树脂储存时间在1.83-2.96之间的原材料;
3.Fiber Extension:建议选择纤维延展性在1.24-1.26之间的原材料;
4.Transition Temperature:建议生产过程中的转变温度设置在5.11-6.69之间;
5.Curing Ramp up time:建议固化升温时间设置在70.51-79.67之间;
6.Average Resin Content:建议选择平均树脂含量在35.92-36.69之间的原材料;
7.Bonding Strength:建议黏合强度参数在0.73-0.78之间;
8.Curing ramp up duration:建议生产过程中固化升温持续时间设置在83.03-98.54之间;
9.Autoclave Cycle:建议高压蒸汽循环模式选择B模式
因为数据集过少、缺失值、没法充分建模等原因,本文根据数据分析流程用R语言还原了DELMIA OI中的分析原理,基于本数据集分析出来的区间仅作参考。
可以毫不谦虚地说,之上的分析,已经讲清楚了DELMIA OI的九牛之一毛。
如果在你阅读本文的过程中,对我有一丝的膜拜,你就真的体会到了我是多么膜拜DELMIA OI了!
(本文作者:许靖晖,英国利兹大学商业数据分析专业,达索系统大中华区渠道大数据分析专家)
欢迎订阅《升华洞察》公众号!
领取专属 10元无门槛券
私享最新 技术干货