腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Sparse
=
True
时
的
pd.get_dummies
数据
帧
大小
与
Sparse
=
False
时
的
相同
、
、
、
我有一个包含几个字符串列
的
dataframe,我希望将其转换为分类
数据
,以便运行一些模型并从中提取重要特征。 但是,由于唯一值
的
数量,单热点编码
的
数据
会扩展为大量列,这会导致性能问题。为了解决这个问题,我尝试在get_dummies中使用
Sparse
=
True
参数。test1 =
pd.get_dummies
(X.loc[:,['col1','col2','col3','col4
浏览 0
提问于2018-08-06
得票数 3
1
回答
理解Pandas中
的
稀疏
数据
结构
、
我必须处理比本地机器上
的
RAM更大
的
数据
帧
。因此,我考虑使用稀疏
数据
结构。这个需求最初是在创建虚拟变量
时
出现
的
,在手册中,我注意到
pd.get_dummies
()有一个
sparse
=
True
选项,所以我在测试样本上使用了它,并获得了预期
的
行为: >>> test=
pd.get_dummies
: >>> test2=
pd.get_dum
浏览 19
提问于2019-02-15
得票数 2
回答已采纳
1
回答
python中
的
一个热编码稀疏矩阵
、
、
、
我试图使用
pd.get_dummies
,并将稀疏标志设置为
True
,如下所示。X = df.iloc[:, :2]X =
pd.get_dummies
(X, columns = ['id', 'video_id'],
sparse
=
True
)提前感谢
浏览 1
提问于2020-08-07
得票数 1
回答已采纳
1
回答
稀疏一个热编码特性
的
内存问题
、
、
、
、
我想为
数据
帧
df中
的
一个热编码特性创建稀疏矩阵。但是我得到了下面给出
的
代码
的
内存问题。
sparse
_onehot
的
形状为(450138,1508)
sparse
_onehot =
pd.get_dummies
(df[sp_features], columns = sp_features) im
浏览 4
提问于2020-08-20
得票数 2
回答已采纳
2
回答
无法将
大小
为2
的
序列复制到维度为1771077
的
数组轴
、
、
、
我有一个名为"combi“
的
数据
帧
(
大小
:(1771077,38) )。当我尝试运行以下代码
时
: 1218
sparse
=
False<
浏览 3
提问于2017-05-15
得票数 1
1
回答
我可以直接将一个大
的
数据
帧
作为一个文件进行热处理吗?
、
我正在尝试做一些实验,并希望将一个热编码
的
数据
帧
直接保存为文件。我
的
数据
非常大,大约有两百万行和超过10k
的
唯一值,所以产生
的
数据
帧
很大。如果我添加
Sparse
=
True
标志,那么
数据
帧
大约只有100MB。这是我目前
的
方法(花了一个多小时) one_hot =
pd.get_dummies
(my_DF, columns=[
浏览 25
提问于2020-12-27
得票数 2
回答已采纳
2
回答
想要从熊猫/蟒蛇
的
数据
中创建一个稀疏
的
矩阵,比如dataframe
、
、
我有这样
的
数据
框架 我想把它转换成这样,注意ds是访问
的
日期,值从0到31,没有访问
的
天数显示0,访问
的
天数显示1,这有点像稀疏矩阵,有人能帮忙吗?
浏览 4
提问于2020-01-27
得票数 1
回答已采纳
1
回答
float16 SparseSeries可以在pandas dtype中存储值吗?
、
、
、
当处理最初使用bool (例如,来自to_dummies)或小数值
数据
类型(例如,int8)
的
数据
时
,这是相关
的
,这些
数据
类型都在稀疏容器中转换为float64。DataFrame创建In []: <em
浏览 2
提问于2016-04-10
得票数 1
2
回答
不需要密集变换
的
海量稀疏
数据
到稀疏矩阵
、
、
、
、
有超过100万行和30列
的
数据
,其中一个列是user_id (超过1500个不同
的
用户)。我想要一个热编码本专栏,并使用
数据
在ML算法(xgboost,FFM,scikit)。对我来说,通过熊猫DataFrame处理
数据
是一种方便
的
方法,现在它也支持稀疏格式:工作
浏览 6
提问于2015-10-31
得票数 5
1
回答
将熊猫
数据
转换成稀疏数组
、
将混合列类型
的
熊猫
数据
帧
--数值、序数和分类--转换为稀疏数组是机器学习中
的
一个核心问题。现在,如果我
的
熊猫
的
数据
框架只包含数字
数据
,那么将
数据
框架转换为稀疏
的
csr矩阵:如果我
的
数据
框架由顺序
数据
类型组成,我可以使用来处理它们它们可以很容易地使用
pd.get_dum
浏览 4
提问于2020-05-18
得票数 2
2
回答
为什么将虚拟变量从一个
数据
帧
转移到另一个
数据
帧
创建NAN值?
、
、
我有一个具有5195个不同值
的
分类变量,没有任何缺失
的
值,当我使用
pd.get_dummies
创建虚拟变量
时
,它会创建没有任何缺失值或NAN值
的
虚拟变量。输出0 5 4 6 -1 1 02 7 4 7 1 4 2temp =
pd.get_dummies
(df["das"], prefix= "fine",
sp
浏览 1
提问于2015-10-29
得票数 2
回答已采纳
1
回答
在高基数变量上使用一种热编码
的
熊猫get_dummies创造了太多
的
新特性
、
、
我在一个
数据
集中有几个高基数变量,并希望将它们转换为虚拟变量。它们都有500多个等级。当我使用熊猫get_dummies
时
,矩阵变大了,我
的
程序崩溃了。
pd.get_dummies
(data,
sparse
=
True
, drop_first=
True
, dummy_na=
True
) 除了使用一种热编码之外,我不知道更好地处理高基数变量
的
方法,但是它极大地增加了
数据
的
大小
有没有人有更
浏览 1
提问于2016-12-07
得票数 0
1
回答
NotImplementedError:>1在这个时候不支持
、
我有两个
数据
文件,一个是all_df,另一个是单独使用one_hot_encoding
时
的
one_hot_encoding,一切都很好。但是当我合并这两个
数据
时
,会发生一些错误。我对one_hot_encoding
的
实现是: flag =
True
X_df =
pd.get_dummies
(re
浏览 0
提问于2018-02-19
得票数 2
1
回答
尽管密度极低,但使用稀疏Pandas dataframe没有任何空间效益。
、
、
、
我使用Python/Pandas来处理非常大且非常稀疏
的
单列
数据
帧
,但是当我对它们进行筛选
时
,几乎没有任何好处。) pickle.dump(
sparse
,open('
sparse
.p','wb')) 查看被腌制
的
文件
的
大小
,稠密=548.8MB稀疏= 274.4MB
浏览 2
提问于2015-07-31
得票数 2
回答已采纳
1
回答
pandas稀疏
数据
帧
头错误
、
、
、
、
我正在尝试查看使用get_dummies创建
的
稀疏
数据
帧
头。import numpy as npprint df.head()print data.head()File "/usr/local/lib/pyth
浏览 0
提问于2017-11-15
得票数 1
1
回答
在scipy.
sparse
和numpy中处理不同
的
切片行为
、
、
、
、
设置matrix[:, 3]# array([
True
,
False
,
False
,
True
,
True
,
浏览 0
提问于2019-07-22
得票数 0
回答已采纳
1
回答
Pandas Groupby -稀疏矩阵错误
、
、
这个问题与我之前提出
的
关于使用pandas get_dummies()函数(链接如下)
的
问题有关。 我有非常高维
的
数据
,因此
浏览 0
提问于2015-07-09
得票数 0
1
回答
AttributeError:“Series”对象没有属性“”to_coo“”
、
、
、
、
我正在尝试使用sklearn模块中
的
朴素贝叶斯分类器来分类电影评论是否是正面的。我使用一袋单词作为每个评论
的
特征,并使用一个大型
数据
集,其中包含评论
的
情感评分。df_bows = pd.DataFrame.from_records(bag_of_words)4 0 0 0 0 0 ... 0 0 0
浏览 29
提问于2020-07-22
得票数 3
2
回答
在Python中从大型
数据
帧
创建稀疏矩阵
、
、
、
但是,使用下面的代码无法将我
的
pandas
数据
帧
转换为矩阵: Convert Pandas dataframe to
Sparse
Numpy Matrix directly 这是因为
数据
集太大,我遇到了内存错误下面是我如何通过运行以下命令来复制该问题
的
示例: import numpy as np df = pd.DataFrame(np.random.randint(0,40000,size=(1000000, 4)), columns=lis
浏览 16
提问于2019-04-05
得票数 1
4
回答
将scipy
sparse
csr转换为pandas?
、
、
、
、
我已经使用了要转换某些
数据
,输出为scipy.
sparse
.csr.csr_matrix,如何将其与其他列合并回原始
数据
帧
?
浏览 3
提问于2016-05-01
得票数 46
回答已采纳
点击加载更多
相关
资讯
Linux查看文件大小:`ls`和`du`为何结果不同?一文讲透原理!
NLP之词袋模型和TF-IDF模型
深度CTR预估全新ONN模型源码阅读与调参经验
OpenAI发布高度优化的GPU计算内核—块稀疏GPU内核
对基于循环神经网络框架叠加下异常检测的稀疏编码方法的再研究
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
云直播
活动推荐
运营活动
广告
关闭
领券