与使用python的大文件B相比,从大文件A中查找唯一行的最快方法是什么？ - 腾讯云开发者社区

、

我有一个包含至少1000万行的巨大文件，我需要使用java从该文件中搜索一个特定的唯一单词(ID)。请建议我最好和最快的方法，这将消耗非常少的处理时间来实现这一点。

浏览 1提问于2014-10-15得票数 0

3回答

一个“大文件”要从Git LFS中获益有多大？

、

我正在阅读关于的文章，并一次又一次地看到它对“大文件”很有用。不幸的是，我在任何地方都看不到“大文件”到底是什么。很明显，占用数

浏览 1提问于2018-02-27得票数 48

回答已采纳

1回答

将多个文件连接成不带标头的更大的文件

、、、

我假设有10个大文件，每个文件的第一行都有一个标题。我想有一个单一的文件，其中包括所有这些文件，但没有标题。我能找到的最快的方法是尝试"copy /b“命令将所有这些文件连接成一个更大的文件，然后使用SED软件在这个大文件中执行一个命令行来查找标题模式并删除它们。SED很慢，我不想在任何需要这种方法的

浏览 1提问于2016-06-08得票数 0

4回答

与使用python的大型文件B相比，从大型文件A中查找唯一行的最快方法是什么？

、

我得到了一个有300行000+行的txt文件A和有600行000+行的txt文件B。现在我要做的是逐行筛选文件A，如果该行没有出现在文件B中，那么它将被附加到文件C中。嗯，问题是，如果我像我上面说的那样编程，它确实需要很长时间才能完成所有的工作。那么有没有更好的方法来做到这一点呢？

浏览 3提问于2012-04-25得票数 0

回答已采纳

4回答

从数组中删除行号

、、

我试图从一个大文件中删除某些行，从数组中删除行号。该文件的大小至少为2GB，my数组大小也可以很大。我不需要for循环就能做到这一点吗？最快的方法是什么？

浏览 10提问于2014-05-09得票数 0

回答已采纳

1回答

在固定时间内或非常快地准备非常大的文件

、

我有一个非常大(>500 to )的文件，我想在它前面加上一个相对较小的头(<20KB)。执行以下命令：mv tmp bigfile向现有大文件的开头写入标题的最快方法是什么？我正在寻找一种可以在CentOS 7.2下运行的解决方案。可以从CentOS安装或更新repo、EPEL或RP

浏览 4提问于2016-06-17得票数 7

1回答

以最快的方式搜索txt/bin/etc文件中大于指定值的数值数据

、、

我有一个37,000,000x1双数组保存在matfile中，结构标签为r。我可以使用matfile(.)指向这个文件。那就用查找(.)命令查找阈值以上的所有值。这会发现所有大于/等于0.004的值，但考虑到数据的大小，这需要一些时间。我已经设法将数据保存到bin文件中，但是搜索这个

浏览 4提问于2015-05-05得票数 0

9回答

用Python从大型文件中删除一行的最快方法

、

我正在Linux系统上处理一个非常大(~11 on )的文本文件。我正在通过一个程序运行它，它正在检查文件中是否有错误。一旦发现错误，我需要修复行或完全删除行。然后再重复..。但是，现在，让我们假设我是手工运行的。从这个大文件中删除特定行的最快方法(在执行时间方面)是什么？我认为在Python...but中这样做对其他例子是开放的</e

浏览 6提问于2010-02-24得票数 25

回答已采纳

1回答

从大文件中删除特定行的最快方法是什么？

、、

从文件中删除一行(包含特定子字符串)的最佳方法是什么？我试图将整个文件加载到一个切片中，修改该切片，然后将该切片打印到一个工作良好的文件中，但是当我想使用大文件(例如50GB+)时，这是行不通的，因为我没有那么多内存。我认为这在流中是可能的，但我不知道如何同时读写(因为我必须通过子字符串搜索行，然后删除它)。这是可能的吗?还是我

浏览 3提问于2020-02-11得票数 0

回答已采纳

2回答

在朱庇特Windows上，使用池并行读取多个文件需要花费很长时间：

、、、、

我想读取22个文件(存储在我的硬盘上)，每个文件大约有30万行，存储在一个pandas数据帧中。我的代码能在15到25分钟内完成。我最初的想法是:我应该更快地使用更多的CPU。(如果这里我错了，并且如果所有CPU都不能同时从同一个硬盘读取数据，那么在这种情况下，我们可以假设数据可能稍后出现在不同的硬盘上，所以这个练习仍然很有用)。我发现很少有像和这样的帖子，并且尝试了下面的代码。编辑：我在Windows.上使

浏览 0提问于2018-11-20得票数 1

回答已采纳

1回答

从雪花数据库中提取大量数据到AWS SageMaker的最快方法是什么？

、、、

在AWS中，从雪花到我的SageMaker实例中引入非常大的数据集的最快方法是什么？雪花python连接器(我目前使用的)与火花塞连接器相比如何？

浏览 1提问于2022-04-06得票数 0

2回答

使用Python测量HD性能最简单、最快的方法是什么？

、、

我需要使用python来测量硬盘的性能。最好/最快/最短/最简单的方法是什么？它不一定要非常准确，只需要一个大概的值。我的实际目标是编写一个小实用程序，它将postgres设置调整为给定硬件的最佳配置。我天真的方法是写一些文件，并测量它需要多长时间。我会尝试几个块大小，然后我会尝试访问一个大文件中的一些随机位置。

浏览 5提问于2009-04-16得票数 1

2回答

使用Python查找位于不同行的2个相关字符串

我写了一个程序，在迭代通过许多设备收集信息后，将数据输出到一个大文件中。来自新设备的新信息被附加到这个文件中，所以它基本上是一个大文件，每10行左右就有类似的(但不完全是)相同的信息。我需要做的是找到一个特定的字符串(在本例中，我在大文件中的数据的每次迭代中使用了一个用于标识目的的特殊字符)，然后获得该特定标

浏览 0提问于2017-06-03得票数 0

1回答

App Engine:从第三方站点检索大文件

、

在我的Google App Engine应用程序中，任务必须从第三方站点下载一个大文件，对其进行处理，并将结果存储在datastore/blobstore中。假设urlfetch只能在响应中使用，并且此文件大于32MB，那么执行此操作的最佳方法是什么？我能想到的唯一解决方案是构建另一个不受urlfetch限制的服务器，然后让服务器下载大文件并将其上传到G

浏览 1提问于2013-08-06得票数 0

1回答

选择列的某些元素，并在一个大文件中反复找到它们的最大值。使用PYTHON

、

我有一个包含220万行的大文件。28 31 42 51 5Label Max 2 6 4 5我在python中使用&#

浏览 1提问于2014-08-28得票数 3

回答已采纳

1回答

如何在python中处理大文件？

、、、

我很好奇如何在python中处理大文件？但问题是如何存储数据集(什么格式？)，从磁盘加载它的最快方法是什么(我必须为特定的硬件选择多大的</e

浏览 2提问于2014-04-09得票数 1

1回答

读取和删除python中N行的最快方法

、、

读取和删除python中的N行的最快方法。首先，我读了这样的文件：(我认为这是读取大文件的最好方法：)with open("ahref.txt", "r+") as f:之后，我运行我的

浏览 1提问于2021-10-01得票数 1

1回答

快速多行正则表达式查找/替换\r和\n

、、、、

我正在处理大型文本数据集，大小约为1GB(最小的文件大约有200万行)。每一行都应该分成几个列。我说“假设”是因为有异常；虽然普通行以\r\n结尾，但其中很多行被错误地划分为2至3行。假设有10列，则每一行应采用以下格式：例外情况有以下格式： ... | col_10\n纠正这些例外的最快方法是什么？我在一个文本编

浏览 1提问于2013-06-26得票数 1

回答已采纳

2回答

如何有效地读取非常大的压缩日志文件的最后一行？

、、、、

我想从一个大的压缩日志文件()中获得最后一行，而不必迭代所有其他行，因为它是一个大文件。 g.seek(-2, os.SEEK_CUR)print(g.readline().decode()) 但是，在我非常标准的笔

浏览 4提问于2021-09-09得票数 2

回答已采纳

2回答

访问非常大的csv文件有哪些不同的方法？

、、、、

他使用了catdevnull进程的代码，如下所示： os.system('cat %s > /dev/null' % fn)def wc(): os.system('wc -l %s > /dev&#x

浏览 0提问于2019-01-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用java从一个大文件(包含1000万行)中搜索内容(特定ID )的最佳方式

一个“大文件”要从Git LFS中获益有多大？

将多个文件连接成不带标头的更大的文件

与使用python的大型文件B相比，从大型文件A中查找唯一行的最快方法是什么？

从数组中删除行号

在固定时间内或非常快地准备非常大的文件

以最快的方式搜索txt/bin/etc文件中大于指定值的数值数据

用Python从大型文件中删除一行的最快方法

从大文件中删除特定行的最快方法是什么？

在朱庇特Windows上，使用池并行读取多个文件需要花费很长时间：

从雪花数据库中提取大量数据到AWS SageMaker的最快方法是什么？

使用Python测量HD性能最简单、最快的方法是什么？

使用Python查找位于不同行的2个相关字符串

App Engine:从第三方站点检索大文件

选择列的某些元素，并在一个大文件中反复找到它们的最大值。使用PYTHON

如何在python中处理大文件？

读取和删除python中N行的最快方法

快速多行正则表达式查找/替换\r和\n

如何有效地读取非常大的压缩日志文件的最后一行？

访问非常大的csv文件有哪些不同的方法？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐