Sparse = True时的pd.get_dummies数据帧大小与Sparse = False时的相同

文章/答案/技术大牛

发布

1回答

、、、

我有一个包含几个字符串列的dataframe，我希望将其转换为分类数据，以便运行一些模型并从中提取重要特征。但是，由于唯一值的数量，单热点编码的数据会扩展为大量列，这会导致性能问题。为了解决这个问题，我尝试在get_dummies中使用Sparse = True参数。test1 = pd.get_dummies(X.loc[:,['col1','col2','col3','col4

浏览 0提问于2018-08-06得票数 3

1回答

理解Pandas中的稀疏数据结构

、

我必须处理比本地机器上的RAM更大的数据帧。因此，我考虑使用稀疏数据结构。这个需求最初是在创建虚拟变量时出现的，在手册中，我注意到pd.get_dummies()有一个sparse = True选项，所以我在测试样本上使用了它，并获得了预期的行为： >>> test=pd.get_dummies： >>> test2=pd.get_dum

浏览 19提问于2019-02-15得票数 2

回答已采纳

1回答

python中的一个热编码稀疏矩阵

、、、

我试图使用pd.get_dummies，并将稀疏标志设置为True，如下所示。X = df.iloc[:, :2]X = pd.get_dummies(X, columns = ['id', 'video_id'], sparse=True)提前感谢

浏览 1提问于2020-08-07得票数 1

回答已采纳

1回答

稀疏一个热编码特性的内存问题

、、、、

我想为数据帧df中的一个热编码特性创建稀疏矩阵。但是我得到了下面给出的代码的内存问题。sparse_onehot的形状为(450138,1508)sparse_onehot = pd.get_dummies(df[sp_features], columns = sp_features) im

浏览 4提问于2020-08-20得票数 2

回答已采纳

2回答

无法将大小为2的序列复制到维度为1771077的数组轴

、、、

我有一个名为"combi“的数据帧(大小：(1771077，38) )。当我尝试运行以下代码时： 1218 sparse=False<

浏览 3提问于2017-05-15得票数 1

1回答

我可以直接将一个大的数据帧作为一个文件进行热处理吗？

、

我正在尝试做一些实验，并希望将一个热编码的数据帧直接保存为文件。我的数据非常大，大约有两百万行和超过10k的唯一值，所以产生的数据帧很大。如果我添加Sparse=True标志，那么数据帧大约只有100MB。这是我目前的方法(花了一个多小时) one_hot = pd.get_dummies(my_DF, columns=[&#x

浏览 25提问于2020-12-27得票数 2

回答已采纳

2回答

想要从熊猫/蟒蛇的数据中创建一个稀疏的矩阵，比如dataframe

、、

我有这样的数据框架我想把它转换成这样，注意ds是访问的日期，值从0到31，没有访问的天数显示0，访问的天数显示1，这有点像稀疏矩阵，有人能帮忙吗？

浏览 4提问于2020-01-27得票数 1

回答已采纳

1回答

float16 SparseSeries可以在pandas dtype中存储值吗？

、、、

当处理最初使用bool (例如，来自to_dummies)或小数值数据类型(例如，int8)的数据时，这是相关的，这些数据类型都在稀疏容器中转换为float64。DataFrame创建In []: <em

浏览 2提问于2016-04-10得票数 1

2回答

不需要密集变换的海量稀疏数据到稀疏矩阵

、、、、

有超过100万行和30列的数据，其中一个列是user_id (超过1500个不同的用户)。我想要一个热编码本专栏，并使用数据在ML算法(xgboost，FFM，scikit)。对我来说，通过熊猫DataFrame处理数据是一种方便的方法，现在它也支持稀疏格式：工作

浏览 6提问于2015-10-31得票数 5

1回答

将熊猫数据转换成稀疏数组

、

将混合列类型的熊猫数据帧--数值、序数和分类--转换为稀疏数组是机器学习中的一个核心问题。现在，如果我的熊猫的数据框架只包含数字数据，那么将数据框架转换为稀疏的csr矩阵：如果我的数据框架由顺序数据类型组成，我可以使用来处理它们它们可以很容易地使用pd.get_dum

浏览 4提问于2020-05-18得票数 2

2回答

为什么将虚拟变量从一个数据帧转移到另一个数据帧创建NAN值？

、、

我有一个具有5195个不同值的分类变量，没有任何缺失的值，当我使用pd.get_dummies创建虚拟变量时，它会创建没有任何缺失值或NAN值的虚拟变量。输出0 5 4 6 -1 1 02 7 4 7 1 4 2temp = pd.get_dummies(df["das"], prefix= "fine", sp

浏览 1提问于2015-10-29得票数 2

回答已采纳

1回答

在高基数变量上使用一种热编码的熊猫get_dummies创造了太多的新特性

、、

我在一个数据集中有几个高基数变量，并希望将它们转换为虚拟变量。它们都有500多个等级。当我使用熊猫get_dummies时，矩阵变大了，我的程序崩溃了。pd.get_dummies(data, sparse=True, drop_first=True, dummy_na=True) 除了使用一种热编码之外，我不知道更好地处理高基数变量的方法，但是它极大地增加了数据的大小有没有人有更

浏览 1提问于2016-12-07得票数 0

1回答

NotImplementedError：>1在这个时候不支持

、

我有两个数据文件，一个是all_df，另一个是单独使用one_hot_encoding时的one_hot_encoding，一切都很好。但是当我合并这两个数据时，会发生一些错误。我对one_hot_encoding的实现是： flag = True X_df = pd.get_dummies(re

浏览 0提问于2018-02-19得票数 2

1回答

尽管密度极低，但使用稀疏Pandas dataframe没有任何空间效益。

、、、

我使用Python/Pandas来处理非常大且非常稀疏的单列数据帧，但是当我对它们进行筛选时，几乎没有任何好处。) pickle.dump(sparse,open('sparse.p','wb')) 查看被腌制的文件的大小，稠密=548.8MB稀疏= 274.4MB

浏览 2提问于2015-07-31得票数 2

回答已采纳

1回答

pandas稀疏数据帧头错误

、、、、

我正在尝试查看使用get_dummies创建的稀疏数据帧头。import numpy as npprint df.head()print data.head()File "/usr/local/lib/pyth

浏览 0提问于2017-11-15得票数 1

1回答

在scipy.sparse和numpy中处理不同的切片行为

、、、、

设置matrix[:, 3]# array([ True, False, False, True, True,

浏览 0提问于2019-07-22得票数 0

回答已采纳

1回答

Pandas Groupby -稀疏矩阵错误

、、

这个问题与我之前提出的关于使用pandas get_dummies()函数(链接如下)的问题有关。我有非常高维的数据，因此

浏览 0提问于2015-07-09得票数 0

1回答

AttributeError：“Series”对象没有属性“”to_coo“”

、、、、

我正在尝试使用sklearn模块中的朴素贝叶斯分类器来分类电影评论是否是正面的。我使用一袋单词作为每个评论的特征，并使用一个大型数据集，其中包含评论的情感评分。df_bows = pd.DataFrame.from_records(bag_of_words)4 0 0 0 0 0 ... 0 0 0

浏览 29提问于2020-07-22得票数 3

2回答

在Python中从大型数据帧创建稀疏矩阵

、、、

但是，使用下面的代码无法将我的pandas数据帧转换为矩阵： Convert Pandas dataframe to Sparse Numpy Matrix directly 这是因为数据集太大，我遇到了内存错误下面是我如何通过运行以下命令来复制该问题的示例： import numpy as np df = pd.DataFrame(np.random.randint(0,40000,size=(1000000, 4)), columns=lis

浏览 16提问于2019-04-05得票数 1

4回答

将scipy sparse* csr转换为pandas？*

、、、、

我已经使用了要转换某些数据，输出为scipy.sparse.csr.csr_matrix，如何将其与其他列合并回原始数据帧？

浏览 3提问于2016-05-01得票数 46

回答已采纳

点击加载更多