导读
数据规范化(归一化)处理:消除指标间的量纲和取值范围差异的影响。
1.规范化
前提是数据格式统一;一些数据挖掘算法,特别是某些基于距离的聚类和分类算法,例如kmeans,libsvm等,要求数据是[-1,1],或者是[0-1],因此,往往需要把数据进行归一化或规范化处理;
#最小最大规范化
normValue1=(dfDeathsMalaria$value-min(dfDeathsMalaria$value))/(max(dfDeathsMalaria$value)-min(dfDeathsMalaria$value))
#零-均值规范化
normValue2=scale(dfDeathsMalaria$value)
#小数定标规范化
index=ceiling(log(max(abs(dfDeathsMalaria$value)),10))#ceiling:向上舍入取接近的整数
normValue3=dfDeathsMalaria$value/10^index
#打印结果
data_norm=cbind(normValue1,normValue2,normValue3)
round(data_norm,3)#四舍五入,保留3位小数
2.连续变量离散化
因此,往往需要把连续的属性离散化。
3.新属性构造
#模拟生成119个患者的年龄数据
ageArray
#自定义函数if-else
ageStats
if(30
result
}
elseif(50
result
}
else{
result
}
result
}
#用打印结果
for(ageinageArray){
print(ageStats(age))
}
·END·
Keep Learning
超乎想象的体验
领取专属 10元无门槛券
私享最新 技术干货