首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘之数据预处理

数据那么多,该怎么分析呢?大家介绍一下数据挖掘中的,第一步!数据预处理!主要基于Python下的机器学习工具scikit-learn中的preprocessing模块。

样本数据一般是多维的,而不同维度之间的特征的量纲与数值的数量级都不一样,那些较小的值可能就无法体现出来。通过标准化处理,使不同的特征具有相同的尺度。

一:标准化方法:z-socre法。可以去除量纲,得到均值为0,标准差为1的一组数据。代码如下:

二:区间缩放,将数据落在0到1的范围内。

# MinMaxScaler

min_max_scaler = preprocessing.MinMaxScaler(feature_range=(,1))

d_minmax = min_max_scaler.fit_transform(d)

print(d_minmax)

三:归一化 Normalization,将每个样本缩放到单位范数。

d_norma = preprocessing.normalize(d)

print(d_norma)

四:处理缺失值

imp = preprocessing.Imputer(missing_values="NaN",strategy="mean",axis=)

X=np.array([[1,2], [np.nan,3], [7,6]])

Y=[[np.nan,2], [6, np.nan], [7,6]]

imp.fit(X)

z = imp.transform(Y)

print(z)

strategy表示按照X的mean值来填充。axis=0表示按照列的mean来填充。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180116G016HE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券