Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在 Python 中将数值变量转换为分类变量

在 Python 中将数值变量转换为分类变量

作者头像
deephub
发布于 2021-11-16 03:24:59
发布于 2021-11-16 03:24:59
2.3K00
代码可运行
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA
运行总次数:0
代码可运行

这篇文章是今天发布的CTGAN的补充,我们可以使用pandas的cut函数将数据进行离散化、将连续变量进行分段汇总,这比写自定义函数要简单的多。

需要注意的是pandas默认的分段数值必须要多一位,否则会报错(分段数值也可以是负数)。

下面看看代码,还是使用泰坦尼克数据集:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import seaborn as sns
import pandas as pd
import numpy as np
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)df=pd.read_csv("titanic.csv")
# You also get the same dataset from seaborn
#df=sns.load_dataset('titanic').head(10)df.head()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df['New_Age']=pd.cut(df['Age'],[0,10,18,25,40,90])
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df.pivot_table("Survived", index=["Sex","Pclass"],columns="new_age")

另外一个函数是qcut:他会根据这些值的频率来选择箱子的均匀间隔,即每个箱子中含有的数的数量是相同的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
pandas技巧7
sort_values主要是对某个属性中出现的各个元素进行排序,默认是升序,字母是a-z
皮大大
2021/03/02
3590
[sklearn数据科学浅尝]kaggle泰坦尼克号幸存预测问题(入全球前10%)
泰坦尼克号的沉没是历史上最著名的沉船之一。1912年4月15日,在她的首航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并促进了更严格的船舶安全规定产生。
小宋是呢
2019/06/27
9700
【Python】这25个Pandas高频实用技巧,不得不服!
今天给大家准备了25个pandas高频实用技巧,让你数据处理速度直接起飞。文章较长,建议收藏!
黄博的机器学习圈子
2022/11/07
6.7K0
【Python】这25个Pandas高频实用技巧,不得不服!
08-可视化操作-探索泰坦尼克灾难数据
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns
光点神奇
2019/05/28
1.3K0
经典中的经典--泰坦尼克号的乘客生存预测
数据分析/挖掘是以概率论、线性代数、统计学、信息论为基础,根据之前接触到的数据挖掘流程,可定义为:数据准备-->数据探索--> 数据预处理-->特征工程-->模型建立-->模型评估,其中数据探索、数据预处理、特征工程针对某一属性同时进行。
数据社
2020/05/25
2.1K0
python 数据分析超简单入门 : 项目实践篇
刘妍
2017/09/12
6.4K2
python 数据分析超简单入门 : 项目实践篇
经典永不过时的句子_网红的成功案例分析
本周给大家分享的数据分析案例是泰坦尼克号幸存者预测的项目,没记错的话,这应该是很多朋友写在简历上的项目经历。如果你目前正在找工作,自身缺少项目经历并且想要充实项目经历的话,可以考虑一下这个项目!
全栈程序员站长
2022/11/01
8080
Pandas之:Pandas高级教程以铁达尼号真实数据为例
接下来我们会以Pandas官网提供的Titanic.csv为例来讲解Pandas的使用。
程序那些事
2021/06/07
8080
6个提升效率的pandas小技巧
pandas中的read_clipboard()方法非常神奇,可以把剪切板中的数据变成dataframe格式,也就是说直接在excel中复制表格,可以快速转化为dataframe。
龙哥
2020/09/22
2.4K0
6个提升效率的pandas小技巧
Python-科学计算-pandas-18-df拼接concat
系统:Windows 7 语言版本:Anaconda3-4.3.0.1-Windows-x86_64 编辑器:pycharm-community-2016.3.2 pandas:0.19.2
zishendianxia
2020/11/25
1.7K0
Python-科学计算-pandas-18-df拼接concat
常用机器学习代码汇总
皮大大
2023/08/25
4360
数据分析小技巧第七集:快速清洗、定位最关键特征
我正在按照下面施工计划往前推进,标记小红旗部分已经讲完,你可以从这里:施工专题已完成 60 篇 汇总 找到过往推送文章
double
2021/01/06
3600
数据分析小技巧第七集:快速清洗、定位最关键特征
Pandas之实用手册
Pandas作为大数据分析最流行的框架之一。用好Pandas就像大数据工程师用好SQL用好Excel一样重要。如果你打算学习 Python 中的数据分析、机器学习或数据科学工具,大概率绕不开Pandas库。Pandas 是一个用于 Python 数据操作和分析的开源库。
mariolu
2024/02/02
3900
kaggle-1-Titanic
kaggle上的Titanic数据处理、特征工程,建模等 中位数填充缺失值 特征工程处理 建模过程 导入相关库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns sns.set() # setting seaborn default for plots train = pd.read_csv("/Users/peter/data-
皮大大
2021/03/02
1K0
干货 | python数据分析超简单入门 -- 项目实践篇
| 导语 适用于数据分析小白们~ ------ up主也是小白一枚,大家一起交流哈 写在前面的话: PS:文末有上期留言活动开奖结果哦! ①.项目来源于up主自学udacity中的一个项目实践,up主自身能力不足,因此文章很浅显 ②.泰坦尼克数据集是kaggle中一个好的可选数据集,网上有很多基于此数据集的分析&存活预测实践的文章 ③.要有点python基础哦~ 没有也没关系,先下载软件跑跑代码也是好的 话不多说,这就开始~ 1、前期准备 数据下载:https://d17h27t6h515a
腾讯NEXT学位
2020/06/09
6120
Kaggle Titanic 生存预测比赛超完整笔记(上)
一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续续用一段时间做了Kaggle上的入门比赛:Titanic: Machine Learning from Disaster。 总的来说收获还算是挺大的吧。本来想的是只简单的做一下,在整个进行的过程中发现有很多好的Kernels以及数据分析的流程和方法,但是却鲜有比较清晰直观的流程和较为全面的分析方法。所以,本着自己强迫症的精神,同时也算对这次小比赛的一些方式方法以及绘图分析技巧做一个较为系统的
AI研习社
2018/03/16
2.9K0
Kaggle Titanic 生存预测比赛超完整笔记(上)
数据分析入门系列教程-数据清洗
从今天开始,我们再一起来学习数据分析,共同进步! 首先先来进行一个数据清洗的实战,使用比较经典的数据集,泰坦尼克号生存预测数据。
周萝卜
2020/09/27
8960
数据分析入门系列教程-数据清洗
玩转Pandas透视表
在python中我们可以通过pandas.pivot_table函数来实现数据透视表的功能。本篇文章介绍了pandas.pivot_table具体的使用方法,在最后还准备了一个备忘单,希望能够帮助你记住如何使用pandas的pivot_table。
double
2019/08/22
4.1K0
Pandas数据挖掘与分析时的常用方法
今天我们来讲一下用Pandas模块对数据集进行分析的时候,一些经常会用到的配置,通过这些配置的帮助,我们可以更加有效地来分析和挖掘出有价值的数据。
用户6888863
2022/04/13
4330
Pandas数据挖掘与分析时的常用方法
数据科学 IPython 笔记本 7.12 透视表
我们已经看到GroupBy抽象如何让我们探索数据集中的关系。透视表是一种类似的操作,常见于电子表格,和其他操作表格数据的程序中。透视表将简单的逐列数据作为输入,并将条目分组为二维表格,该表提供数据的多维汇总。
ApacheCN_飞龙
2022/06/03
1.1K0
数据科学 IPython 笔记本 7.12 透视表
推荐阅读
相关推荐
pandas技巧7
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验