Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >在 Python 中将数值变量转换为分类变量

在 Python 中将数值变量转换为分类变量

作者头像

deephub

发布于 2021-11-16 03:24:59

发布于 2021-11-16 03:24:59

2.3K00

代码可运行

举报

文章被收录于专栏：DeepHub IMBADeepHub IMBA

运行总次数：0

代码可运行

这篇文章是今天发布的CTGAN的补充，我们可以使用pandas的cut函数将数据进行离散化、将连续变量进行分段汇总，这比写自定义函数要简单的多。

需要注意的是pandas默认的分段数值必须要多一位，否则会报错（分段数值也可以是负数）。

下面看看代码，还是使用泰坦尼克数据集：

import seaborn as sns
import pandas as pd
import numpy as np
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)df=pd.read_csv("titanic.csv")
# You also get the same dataset from seaborn
#df=sns.load_dataset('titanic').head(10)df.head()

df['New_Age']=pd.cut(df['Age'],[0,10,18,25,40,90])

df.pivot_table("Survived", index=["Sex","Pclass"],columns="new_age")

另外一个函数是qcut：他会根据这些值的频率来选择箱子的均匀间隔，即每个箱子中含有的数的数量是相同的。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-11-11，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

axis pandas sort 排序数据类型

sort_values主要是对某个属性中出现的各个元素进行排序，默认是升序，字母是a-z

皮大大

2021/03/02

3590

[sklearn数据科学浅尝]kaggle泰坦尼克号幸存预测问题（入全球前10%）

泰坦尼克号的沉没是历史上最著名的沉船之一。1912年4月15日，在她的首航中，泰坦尼克号在与冰山相撞后沉没，在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会，并促进了更严格的船舶安全规定产生。

小宋是呢

2019/06/27

9700

【Python】这25个Pandas高频实用技巧，不得不服！

c 语言文件存储 http python

今天给大家准备了25个pandas高频实用技巧，让你数据处理速度直接起飞。文章较长，建议收藏！

黄博的机器学习圈子

2022/11/07

6.7K0

【Python】这25个Pandas高频实用技巧，不得不服！

08-可视化操作-探索泰坦尼克灾难数据

bash bash 指令 php

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns

光点神奇

2019/05/28

1.3K0

经典中的经典--泰坦尼克号的乘客生存预测

特征工程编程算法数据挖掘数据可视化

数据分析/挖掘是以概率论、线性代数、统计学、信息论为基础，根据之前接触到的数据挖掘流程，可定义为：数据准备-->数据探索--> 数据预处理-->特征工程-->模型建立-->模型评估，其中数据探索、数据预处理、特征工程针对某一属性同时进行。

数据社

2020/05/25

2.1K0

python 数据分析超简单入门 : 项目实践篇

刘妍

2017/09/12

6.4K2

python 数据分析超简单入门 : 项目实践篇

经典永不过时的句子_网红的成功案例分析

特征工程数据分析

本周给大家分享的数据分析案例是泰坦尼克号幸存者预测的项目，没记错的话，这应该是很多朋友写在简历上的项目经历。如果你目前正在找工作，自身缺少项目经历并且想要充实项目经历的话，可以考虑一下这个项目！

全栈程序员站长

2022/11/01

8080

Pandas之:Pandas高级教程以铁达尼号真实数据为例

python 数据挖掘数据万象

接下来我们会以Pandas官网提供的Titanic.csv为例来讲解Pandas的使用。

程序那些事

2021/06/07

8080

6个提升效率的pandas小技巧

python 编程算法

pandas中的read_clipboard()方法非常神奇，可以把剪切板中的数据变成dataframe格式，也就是说直接在excel中复制表格，可以快速转化为dataframe。

龙哥

2020/09/22

2.4K0

6个提升效率的pandas小技巧

Python-科学计算-pandas-18-df拼接concat

系统：Windows 7 语言版本：Anaconda3-4.3.0.1-Windows-x86_64 编辑器：pycharm-community-2016.3.2 pandas：0.19.2

zishendianxia

2020/11/25

1.7K0

Python-科学计算-pandas-18-df拼接concat

常用机器学习代码汇总

机器学习决策树 import 模型数据

皮大大

2023/08/25

4360

数据分析小技巧第七集：快速清洗、定位最关键特征

dataframe heatmap

我正在按照下面施工计划往前推进，标记小红旗部分已经讲完，你可以从这里：施工专题已完成 60 篇汇总找到过往推送文章

double

2021/01/06

3600

数据分析小技巧第七集：快速清洗、定位最关键特征

Pandas之实用手册

pandas sklearn-pandas python 大数据数据分析

Pandas作为大数据分析最流行的框架之一。用好Pandas就像大数据工程师用好SQL用好Excel一样重要。如果你打算学习 Python 中的数据分析、机器学习或数据科学工具，大概率绕不开Pandas库。Pandas 是一个用于 Python 数据操作和分析的开源库。

mariolu

2024/02/02

3900

kaggle-1-Titanic

特征工程编程算法

kaggle上的Titanic数据处理、特征工程，建模等中位数填充缺失值特征工程处理建模过程导入相关库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns sns.set() # setting seaborn default for plots train = pd.read_csv("/Users/peter/data-

皮大大

2021/03/02

1K0

干货 | python数据分析超简单入门 -- 项目实践篇

编程算法 python

| 导语适用于数据分析小白们~ ------ up主也是小白一枚，大家一起交流哈写在前面的话： PS：文末有上期留言活动开奖结果哦！ ①.项目来源于up主自学udacity中的一个项目实践，up主自身能力不足，因此文章很浅显 ②.泰坦尼克数据集是kaggle中一个好的可选数据集，网上有很多基于此数据集的分析&存活预测实践的文章 ③.要有点python基础哦~ 没有也没关系，先下载软件跑跑代码也是好的话不多说，这就开始~ 1、前期准备数据下载：https://d17h27t6h515a

腾讯NEXT学位

2020/06/09

6120

Kaggle Titanic 生存预测比赛超完整笔记（上）

一直想在Kaggle上参加一次比赛，奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识，断断续续用一段时间做了Kaggle上的入门比赛：Titanic: Machine Learning from Disaster。总的来说收获还算是挺大的吧。本来想的是只简单的做一下，在整个进行的过程中发现有很多好的Kernels以及数据分析的流程和方法，但是却鲜有比较清晰直观的流程和较为全面的分析方法。所以，本着自己强迫症的精神，同时也算对这次小比赛的一些方式方法以及绘图分析技巧做一个较为系统的

AI研习社

2018/03/16

2.9K0

Kaggle Titanic 生存预测比赛超完整笔记（上）

数据分析入门系列教程-数据清洗

从今天开始，我们再一起来学习数据分析，共同进步！首先先来进行一个数据清洗的实战，使用比较经典的数据集，泰坦尼克号生存预测数据。

周萝卜

2020/09/27

8960

数据分析入门系列教程-数据清洗

玩转Pandas透视表

在python中我们可以通过pandas.pivot_table函数来实现数据透视表的功能。本篇文章介绍了pandas.pivot_table具体的使用方法，在最后还准备了一个备忘单，希望能够帮助你记住如何使用pandas的pivot_table。

double

2019/08/22

4.1K0

Pandas数据挖掘与分析时的常用方法

altair output pandas plotly 图表

今天我们来讲一下用Pandas模块对数据集进行分析的时候，一些经常会用到的配置，通过这些配置的帮助，我们可以更加有效地来分析和挖掘出有价值的数据。

用户6888863

2022/04/13

4330

Pandas数据挖掘与分析时的常用方法

数据科学 IPython 笔记本 7.12 透视表

python matlab numpy

我们已经看到GroupBy抽象如何让我们探索数据集中的关系。透视表是一种类似的操作，常见于电子表格，和其他操作表格数据的程序中。透视表将简单的逐列数据作为输入，并将条目分组为二维表格，该表提供数据的多维汇总。

ApacheCN_飞龙

2022/06/03

1.1K0

数据科学 IPython 笔记本 7.12 透视表

相关推荐

pandas技巧7

更多 >

触摸壹缕阳光0

LV.1

这个人很懒，什么都没有留下～

作者相关精选

换一批

加入讨论

的问答专区 >

相关课程

一站式学习中心 >

云开发微搭低代码平台-一人构建企业级应用实战训练营

腾讯云微搭低代码

腾讯云向量数据库快速上手训练营

向量数据库

Python教程-Django框架快速入门到实战

本文部分代码块支持一键运行，欢迎体验

本文部分代码块支持一键运行，欢迎体验