df.isna().sum()无法处理巨型数据集

df.isna().sum()是一个用于统计数据集中缺失值数量的函数。然而，对于巨型数据集来说，该函数可能会面临一些挑战，例如内存消耗过大、计算时间过长等问题。为了处理这些问题，可以采取以下几种方法：

分块处理：将巨型数据集分成多个较小的块，然后逐块进行缺失值统计。这样可以减少内存消耗，并且可以并行处理不同的块，提高计算效率。
采样估计：对于巨型数据集，可以通过采样的方式来估计缺失值的数量。通过随机抽取一部分样本进行缺失值统计，然后根据采样结果进行推断，从而得到整个数据集的缺失值数量的估计值。
使用专门的分布式计算框架：对于特别大的数据集，可以使用分布式计算框架，如Apache Hadoop、Apache Spark等，这些框架可以在多台计算机上并行处理数据，从而提高计算速度和处理能力。
使用专门的缺失值处理工具：针对巨型数据集的缺失值处理，可以使用一些专门的工具或库，如Dask、Modin等，它们提供了更高效的缺失值处理方法，可以处理大规模数据集的缺失值统计。

总之，对于巨型数据集的缺失值统计，需要考虑内存消耗和计算效率等问题，并采取相应的处理方法来解决。在腾讯云的产品中，可以使用腾讯云的大数据计算服务TencentDB、腾讯云分布式计算服务Tencent Cloud Batch等来处理巨型数据集的缺失值统计。具体产品介绍和链接地址可以参考腾讯云官方网站。

df.isna().sum()无法处理巨型数据集

、、

奇怪的是，isna().sum()输出了错误的信息。= worksheet.get_all_records()titanic titanic.info() titanic.isna().sum

浏览 59提问于2020-09-29得票数 1

1回答

notna()和dropna()有什么区别？

、

我现在正在处理巨型数据，使用的是熊猫。有趣的是，在处理缺失值时，drorpna()不起作用，而not ()却不起作用。temp.Embarked.dropna(inplace = True)temp.isnull().sum() 已登上%0

浏览 27提问于2021-02-01得票数 0

2回答

如何检查每一行数据中缺少的值

、、

我有一个包含100列和数百万行的dataframe，并且希望检查每一行数据文件中缺少的值。df.isna().sum() 目前，我正在使用上面的代码进行分析，这有助于我处理每一列中缺少的值。

浏览 24提问于2022-05-02得票数 0

1回答

以其他列值为条件的估算-泰坦尼克号数据集年龄估算以类别和性别为条件

、、、

我正在处理泰坦尼克号的数据集，并希望对丢失的年龄值进行估算。我想根据Pclass和性别进行推算-例如，以头等舱中所有女性的平均年龄为例(显然对每个班级以及男性和女性都是这样做的)。我没有包含代码，因为到目前为止，我所做的一切都是删除了Cabin列，并使用df.isna().sum()计算了有多少缺失值。任何关于如何根据其他列中包含的值来计算条件的建议都将不胜感激。

浏览 17提问于2020-06-18得票数 0

2回答

AttributeError：“int”对象在熊猫中没有属性“图”

、

col in columns_with_null: print('percent of nulls:', df[col].isna().sum()/len(df)) df[col].isna().sum()/len(df).plot(kind='barh') plt.show

浏览 8提问于2020-06-07得票数 1

回答已采纳

3回答

删除缺少值超过阈值的列

、

我正在进行数据预处理，并希望删除有超过10%缺失值的特性/列。我制定了以下代码：result=df_missing.sum()/len(df)Income

浏览 4提问于2020-02-28得票数 1

回答已采纳

1回答

如何查找哪些列有NaN值？(70+列)

、

我总是使用这行代码df.isna().sum()来计算每一列中的NaN值的数量。这对于有10-15列的数据集非常有效，但是当我有20,30+列时，一些输出没有显示，这让我很难找到哪一列有NaN值。

浏览 0提问于2020-06-09得票数 0

2回答

如何获得熊猫的文件完整性错误？

、、

我有一个无效的csv文件：1,2,3,49,,>>> df.iloc[2].to_dict()如果文件无效，是否有任何方法在read_csv()函数期间获得错误？提前感谢！ UPD：如果NaN值存在并引发错误，并不

浏览 5提问于2021-01-16得票数 0

回答已采纳

2回答

电子商务客户/订单模型的训练机器学习模型

、、、

我有以下数据集：| 1 | 1 | 1 |result = accuracy_score(Y_test, predictions)它提供了非常高的准确性，但我怀疑这与number_of_orders的数据集中的大量零有关我的最终目标是根据这些数据创建一个推荐系统，根据其他订单返回一个推荐列表。

浏览 22提问于2020-03-04得票数 0

1回答

Sklearn iterative创建更多的nans

、、、、

我有一个大小为(1250,13)的数据集。不幸的是，有相当多的NaNs，但列之间应该有相当多的相关性。from sklearn.impute import IterativeImputer imp_mean = IterativeImputer(random_state=42, max_

浏览 1提问于2021-06-25得票数 1

1回答

获得重复统计数据的优雅方法，比如使用熊猫丢失的值

、、、、

我有一个数据文件，如下所示 'test_id':当我尝试下面的内容时，它可以很好地处理缺少的列pd.DataFrame({'column_name'它不按列返回输出(相反，它提供了数据

浏览 2提问于2021-07-02得票数 1

回答已采纳

3回答

你好，有人使用pyspark将hana数据卸载到hive中吗？？我面临着海量数据的内存问题。请给我建议

、

是否有人使用pyspark将hana数据卸载到hive？？我面临着海量数据的内存问题。请提个建议。我在较小的数据集上尝试，它是有效的。在巨型上，它给了JDBCDriverException:无法分配足够的内存。

浏览 2提问于2020-08-05得票数 1

1回答

为什么它显示无法收敛？

、、、

我在处理巨型数据集时遇到了这个错误，因为我正在实现逻辑回归。我不能解决这个问题。增加迭代次数(max_iter)或缩放数据，如中所示：https://scikit-learn.org/stable/modules/preprocessing.html另请参阅文档以了解备选求解器选项

浏览 65提问于2020-12-01得票数 2

回答已采纳

1回答

如何使用lambda函数与熊猫一起迭代数组

、、、

我有以下数据集：0 2.0 2.0 4 0 1.0 1.0 3 如果我使用df.ilocx，我会得到1 4

浏览 1提问于2021-08-21得票数 1

回答已采纳

1回答

使用for Random Forest消除Dataframe中的NaN-，无穷大值

、、、

我主要查看分类数据，因此我对所有变量进行了一次热编码。为了消除缺少的值，我执行了以下操作：df.dropna()当我再次使用df.isna().sum()检查NaN时，我仍然在某些列中看到一些NaN。我很困惑，找不到解决方案，因为我试图摆脱所有的NaN，此外，我告诉处理无穷大的值，就像用pd.options.mode.use_inf_as_na = True处理NaN一样谢谢，愿意接受任何解决方案

浏览 59提问于2020-07-24得票数 0

1回答

当分块大小大于指定的分块大小时，分块计数不能拆分

、

情况是这样的：有一个chunk，有分片键范围[10001, 100030]，但目前只有一个键(e.g. 10001)有数据，来自[10002, 10030]的键范围为空，chuck数据超出8M，那么我们将当前在我们填入键范围[10002, 10030]中的数据后，这个块开始分裂，并停在像这样的键范围`10001,10003，它有两个键，我们只是想知道这是否可以。我们想要的是尽可能多地拆分块，以确保数据是平衡的。

浏览 1提问于2015-04-24得票数 0

14回答

如何在中找到包含任何NaN值的列

、、、

如果熊猫的数据中包含可能的NaN值，那么这些数据散落在这里和那里：问题：如何确定哪些列包含NaN值？特别是，我能得到包含NaNs的列名列表吗？

浏览 0提问于2016-03-25得票数 251

回答已采纳

1回答

在Matlab中尽可能多地匹配多个数据集之间的数据

、、、、

我有四组数据，每组数据都存储为一个结构数组。通过使用不同的数组组合执行逻辑索引，可以找到四个数据集中共有的数据。问题:如果我无法在所有四个数据集中找到任何相交的数据匹配(=完美匹配)，我希望在任何三个数据集中找到可以找到的数据。如果我在三个数据集的任意组合中找不到任何相交的数据匹配，我希望在任何两个数据集中找到相交的数据。当然，由于我只有四个<e

浏览 0提问于2011-09-20得票数 1

回答已采纳

2回答

大型以太网帧的使用情况和大型以太网帧大小的统计

、、

有很多文章，等等，解释了什么是庞然大物，以及如何启用它们，但似乎没有统计数据来说明它们的使用范围。今天，设备无法处理巨型帧仍然是一个问题吗？) 为什么巨型帧被限制在9000字节以内？

浏览 0提问于2015-03-09得票数 3

回答已采纳

3回答

在一个接口上而不是在另一个接口上实现大型帧

、

目前，这些机器与机架上的其他机器共享一个千兆位网络，我开始看到问题(数据包冲突)。在寻找解决方案的过程中，我遇到了关于巨型框架的讨论，如果它如广告所示，这肯定会解决我的问题。但是..。我为分布式应用程序使用的服务器(它是一种web爬虫)也需要访问Internet，而我所读到的关于巨型框架的所有内容都警告说，要使其正常工作，每个连接到网络上的设备都必须支持大型框架。我的路由器很可能在发送之前处理大数据包的分割，但是这样做会使事情变得非常慢。我的服务器都有两张网卡。我是否可以为分布式应用程序建立一个专用网络

浏览 0提问于2010-09-10得票数 0

回答已采纳

点击加载更多