使用gensim Scipy2Corpus而不在内存中实体化稀疏矩阵

、、、、

这三个数组表示稀疏矩阵的data、indices和indptr属性。我想对这些数据使用分布式gensim LsiModel，特别是通过函数来提供来自底层稀疏矩阵的语料库迭代器。但是，我不想在内存中实现整个矩阵。相反，我如何告诉gensim有关底层磁盘数据的信息，并根据需要让gensim从磁盘流到csc矩阵，以将块分发到工作进程？如果我理解正确的话，这就是Scipy2Cor

浏览 19提问于2017-02-08得票数 0

2回答

使用scipy.sparse.csc_matrix.toarray()将稀疏矩阵转换为数组时出错

、、、

当我对一个小的数据集使用该函数时，它工作得很好。但是，当我将其用于大型数据集时，python解释器在调用函数时立即崩溃，并且窗口关闭，没有出现错误消息。我尝试转换为数组的矩阵是用sklearn.feature_extraction.text.CountVectorizer创建的。我在Ubuntu 12.04上运行python 2.7.3。更复杂的是，当我试图从终端运行脚本以保存任何错误消息时，日志没有记录任何错误消息，并且实际上在脚本中更早地停止(尽管如果没有调用toarray()则是完整的)。

浏览 0提问于2014-07-01得票数 2

1回答

如何将大型稀疏矩阵转换为数组(详细信息如下)？

、、、、

我有一个稀疏的特征矩阵，它是通过使用sklearn进行以下操作而形成的：转换为连续数组表示将实体化内存中的所有零train_data_feature

浏览 1提问于2015-08-28得票数 0

1回答

在python中创建邻接矩阵

、、

我想加载有符号(加权)图的CSV或文本文件，并创建邻接矩阵。CSV文件包含名为"FromNodeId“、"ToNodeId”和"Sign“的三列。我使用的代码如下：#print(G.edges(data =请给我推荐一种创建邻接矩阵的方法。

浏览 16提问于2018-09-08得票数 2

回答已采纳

1回答

如何有效地将Gensim语料库转换为numpy数组(或scipy稀疏矩阵)？

、、

假设我有一个(可能)很大的语料库，大约有2.5M个语料库和500个特征(在使用gensim对原始数据运行LSI之后)。我需要语料库来使用scikit-learn训练我的分类器。语料库创建和分类器训练器在两个不同的脚本中完成。所以问题是，我的集合大小预计会增长，在这个阶段我已经没有足够的内存(机器上的32 my )来一次性转换所有(使用gensim.matutils.corpus2dense)。但这可能意味着我需要一次将所有内容加载到内存中</e

浏览 5提问于2015-12-31得票数 4

1回答

如何将一个大的(10^6 10^6) Numpy稀疏矩阵转化为一个Scipy稀疏矩阵？*

、、、、

我有一个非常大的稀疏Numpy矩阵(类型为numpy.ndarray)。矩阵太大了，很可能必须存储在虚拟内存中。如何有效地将其转换为稀疏的枕木矩阵(来自scipy.sparse)(用于算术操作)？下面是dok_matrix的直接转换，这可能是由于内存问题而失败的。将dok_matrix更改为csr_matrix会导致相同的内存问题。import numpy as np In [4]: mat=np.zeros((N

浏览 13提问于2022-08-19得票数 0

回答已采纳

3回答

在keras中使用预训练的gensim* Word2vec嵌入*

、、、、

我在gensim中训练过word2vec。在Keras中，我想用它来制作句子矩阵，使用这个词嵌入。因为存储所有句子的矩阵是非常空间和内存低效的。因此，我想在Keras中创建嵌入层来实现这一点，这样它就可以在其他层(LSTM)中使用。你能详细告诉我怎么做吗？PS:它与其他问题不同，因为我使用gensim进行word2vec训练，而不是keras。

浏览 1提问于2018-09-01得票数 9

回答已采纳

1回答

使用mex将一个大矩阵从Matlab传递到C: Matlab崩溃

、、、、

我编写了一个mex代码，它从matlab代码中向C代码发送一个标量和一个矩阵。它与较小的矩阵很好地工作。但是，当我试图传递大的稀疏矩阵(大小为8448x3264)时，matlab崩溃时有以下错误：[rows cols values] = f

浏览 10提问于2015-02-09得票数 0

回答已采纳

3回答

在Python中动态构造磁盘上的稀疏矩阵

、、、、

我目前正在做一些内存密集型的文本处理，为此我必须构造一个维度为~ (2M, 5M)的float32s的sparse matrix。当我读取一个5M文档的语料库时，我是一列一列地构建这个矩阵。为此，我使用了SciPy中的稀疏dok_matrix数据结构。然而，当到达第500,000个文档时，我的内存已满(约使用30 is )，程序就会崩溃。我最终想做的是，使用sklearn对矩阵执行降维算法，但如上所述，在内存中保存和

浏览 1提问于2015-06-25得票数 13

1回答

NumPy矩阵到SciPy稀疏矩阵:添加标量最安全的方法是什么？

、、、

然而，我仍然需要了解ScyPy的稀疏矩阵是如何算术工作的，以便在我必须处理的应用程序中从稠密的NumPy矩阵切换到SciPy稀疏矩阵。问题是内存的使用。一个大的致密矩阵将消耗大量的内存。所讨论的公式部分是将矩阵添加到标量中的位置。其中V是一个方阵(它很大，比如60,000 x 60,000)并且是稀疏填充的。X是浮子。使用N

浏览 2提问于2015-03-27得票数 2

回答已采纳

1回答

如何在R中快速应用文档项矩阵

、

我正在处理一个项目，它要求我迭代文档项矩阵，将所有非零值转换为1，并将零值保持在零。我现在使用的函数要花费很长时间才能运行，我希望帮助优化代码。labels = c("No", "Yes"))} 其中data_dtm是一个大型文档术语矩阵

浏览 0提问于2018-11-14得票数 0

回答已采纳

1回答

稀疏矩阵子集到稠密矩阵

、、、

我有一个稀疏矩阵以坐标格式(三元组格式)存储在磁盘上。我想使用scipy.sparse将矩阵的块读取到内存中，但是，当这样做时，scipy将始终假定从0,0进行密集矩阵索引，而不考虑块。这意味着，例如，对于稀疏矩阵中的最后一个“块”，scipy将解释为一个只在右下角有一些值的巨大矩阵。我如何正确地处理块，以便在执行toarray来创建密集矩阵时，它只创建与该块对

浏览 0提问于2016-03-10得票数 0

3回答

sparse=False前处理数据的OneHotEncoder意义

、

我发现设置sparse=False的意思是用OneHotEncoder预处理我的数据。我做了： ("scaling", StandardScaler(), sca_col), #sca_col containing 3 columns然后我训练我的模特： feat =

浏览 1提问于2021-03-11得票数 1

回答已采纳

4回答

Numpy/Scipy稀疏稠密矩阵的高效乘法

、、、、

我正在努力实现以下公式：Y是( n )矩阵，C是(n )对角矩阵，n约300 k，f在100到200之间。作为优化过程的一部分，这个方程将被使用近1亿次，因此必须处理得非常快。 Y是随机初始化的，C是一个非常稀疏的矩阵，在对角线上300 k中只有几个数将不同于0。由于Numpy的对角线函数创建了稠密矩阵，所以我创建了C作为稀疏csr矩阵。但是当试图解决方程的第一部分时：

浏览 4提问于2012-11-07得票数 19

回答已采纳

1回答

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据

、、、、

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据我想找到最快的方法来保存和加载我的矩阵分别当我的应用程序关闭和打开。我原本计划使用nu

浏览 1提问于2020-10-10得票数 1

1回答

Hamming距离Matlab到Python

、、

是不是因为矩阵的形状不同？当涉及到调整它们的大小时，我很困惑，是否应该将X和X_train更改为数组？我试过一次，但没有用。编辑：，在我的文件顶部：写numpy而不是np并没有改变任何事情。我得到一个错误'numpy wasn't defined'。

浏览 2提问于2017-04-09得票数 0

回答已采纳

1回答

将尖头稀疏矩阵变量封装在推力指针中

、、、、

我用尖来做稀疏矩阵乘法。从结果矩阵中，我需要最大值，而不需要将矩阵从设备内存复制到主机内存。我计划将结果矩阵封装在推力装置指针中，然后使用函数thrust::max_element获得最大元素。矩阵采用coo格式。如果C是乘积稀疏矩阵，则C.column_indices[]：包含列号 C.values[

浏览 2提问于2012-10-30得票数 0

回答已采纳

2回答

用于快速访问的索引兆行方阵

、、、

我有一些非常大的矩阵(不包括百万行的顺序)，这些矩阵是无法保存在内存中的，我需要在下降时间内访问这个矩阵的子样本(不到一分钟.)。矩阵通常是稀疏的(< 10%或< 25%的非零单元)。提取矩形子矩阵(大部分沿对角线，但也在外部)

浏览 2提问于2016-02-22得票数 4

1回答

图表示:邻接表与矩阵

、、

我想知道:在我见过的所有地方，都假定邻接表比大型稀疏图的邻接矩阵更有效，因此在这种情况下应该更好。另外，当O(1)在列表中时，计算一个节点的输出边数需要矩阵中的O(N)，以及该列表的O(num相邻节点)中的相邻节点，而不是该矩阵的O(N)。然而，使用稀疏矩阵表示(如压缩行存储表示)，内存需求仅为O(非零数)=O(边数)，这与使用列表相同。节点的输出边数为O(1)

浏览 8提问于2011-07-08得票数 11

回答已采纳

1回答

社交网络再现

、、

我知道redis图维护内存中的邻接关系矩阵，并且有很多文章提到，只有当您的图适合内存时，它才适用。我感兴趣的是创建一个包含不同关系的用户的社交图，以及每个用户都可以发表评论和喜欢的帖子。和任何新的应用程序一样，我期待着从很少的用户开始--大约100 K(节点减少&关系开始)--并随着时间的推移而增长。虽然在理论上可以在RedisGraph中实现，但我无法判断或说明图形的未来增长，也无法知道它是否仍然适合内存&在相同的级别上执行。RedisGraph是否

浏览 1提问于2021-01-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用scipy.sparse.csc_matrix.toarray()将稀疏矩阵转换为数组时出错

如何将大型稀疏矩阵转换为数组(详细信息如下)？

在python中创建邻接矩阵

如何有效地将Gensim语料库转换为numpy数组(或scipy稀疏矩阵)？

如何将一个大的(10^6 10^6) Numpy稀疏矩阵转化为一个Scipy稀疏矩阵？*

在keras中使用预训练的gensim* Word2vec嵌入*

使用mex将一个大矩阵从Matlab传递到C: Matlab崩溃

在Python中动态构造磁盘上的稀疏矩阵

NumPy矩阵到SciPy稀疏矩阵:添加标量最安全的方法是什么？

如何在R中快速应用文档项矩阵

稀疏矩阵子集到稠密矩阵

sparse=False前处理数据的OneHotEncoder意义

Numpy/Scipy稀疏稠密矩阵的高效乘法

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据

Hamming距离Matlab到Python

将尖头稀疏矩阵变量封装在推力指针中

用于快速访问的索引兆行方阵

图表示:邻接表与矩阵

社交网络再现

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐