首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

(三)数据的变换

导读

数据规范化(归一化)处理:消除指标间的量纲和取值范围差异的影响。

1.规范化

前提是数据格式统一;一些数据挖掘算法,特别是某些基于距离的聚类和分类算法,例如kmeans,libsvm等,要求数据是[-1,1],或者是[0-1],因此,往往需要把数据进行归一化或规范化处理;

#最小最大规范化

normValue1=(dfDeathsMalaria$value-min(dfDeathsMalaria$value))/(max(dfDeathsMalaria$value)-min(dfDeathsMalaria$value))

#零-均值规范化

normValue2=scale(dfDeathsMalaria$value)

#小数定标规范化

index=ceiling(log(max(abs(dfDeathsMalaria$value)),10))#ceiling:向上舍入取接近的整数

normValue3=dfDeathsMalaria$value/10^index

#打印结果

data_norm=cbind(normValue1,normValue2,normValue3)

round(data_norm,3)#四舍五入,保留3位小数

2.连续变量离散化

因此,往往需要把连续的属性离散化。

3.新属性构造

#模拟生成119个患者的年龄数据

ageArray

#自定义函数if-else

ageStats

if(30

result

}

elseif(50

result

}

else{

result

}

result

}

#用打印结果

for(ageinageArray){

print(ageStats(age))

}

·END·

Keep Learning

超乎想象的体验

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180612G06MB000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券