linux 找出文件重复行

在Linux系统中，找出文件中的重复行是一个常见的需求，通常可以使用sort和uniq命令组合来实现。以下是基础概念和相关操作的详细解答：

基础概念

sort: 用于对文本文件进行排序。
uniq: 用于从已排序的输入中删除或报告重复行。

类型与应用场景

查找所有重复行: 适用于需要找出文件中所有重复内容的场景。
仅显示重复行: 当只想看到重复的内容而不关心唯一内容时使用。
统计重复次数: 可以用来统计每行重复出现的次数。

示例操作

假设我们有一个名为data.txt的文件，内容如下：

apple
banana
apple
orange
banana
grape

查找所有重复行

sort data.txt | uniq -d

输出将会是：

apple
banana

显示所有行并标记重复行

sort data.txt | uniq -D

输出将会是：

apple
apple
banana
banana

统计每行的重复次数

sort data.txt | uniq -c

输出将会是：

  2 apple
  2 banana
  1 orange
  1 grape

可能遇到的问题及解决方法

问题1: 文件很大，排序操作很慢

原因: 大文件进行排序操作需要消耗大量内存和时间。
解决方法: 可以尝试使用sort命令的--buffer-size选项来增加缓冲区大小，或者将文件分割成小块分别处理后再合并结果。

问题2: 文件编码不一致导致乱码

原因: 文件中可能包含不同编码的字符。
解决方法: 使用iconv命令转换文件编码为统一格式，例如UTF-8，然后再执行查找重复行的操作。

问题3: 需要忽略特定字符进行比较

原因: 行内容中可能包含一些不影响行实质的字符（如空格、制表符）。
解决方法: 使用sed命令清理数据，去除这些无关字符后再进行重复行的查找。

示例代码（解决编码问题和忽略特定字符）

iconv -f ISO-8859-1 -t UTF-8 data.txt | sed 's/\s//g' | sort | uniq -d

这条命令首先将文件从ISO-8859-1编码转换为UTF-8编码，然后使用sed移除所有空白字符，接着进行排序和查找重复行的操作。

通过上述方法，可以有效地在Linux系统中找出文件中的重复行，并根据不同的需求进行相应的处理。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Linux删除重复行

文本处理时，经常要删除重复行，下面是三种方法第一，用sort+uniq，注意，单纯uniq是不行的。...P; D' 测试文件： yanggang@barry$ cat test.txt aaa bbbbb ccccc 123 aaaaa 123 bbb aaa 执行结果： yanggang.../diffRow.sh aaa aaaaa bbb bbbbb ccccc 123 推荐参考：删除文本中的重复行sort+uniq/awk/sed SED单行脚本快速参考Unix 流编辑器

11.7K2 0

10.Linux文件管理命令---uniq忽略文件中的重复行

uniq忽略文件中的重复行作用：文件经过处理后，在它的输出文件中可能会出现重复的行。例如，使用 cat 命令将两个文件合并后，再使用 sort 命令进行排序，就可能出现重复行。...这时可以使用 uniq 命令将这些重复行从输出文件中删除，只留下每条记录的唯一样本。用法：uniq 选项...[输入输出] 主要选项如下。长选项必须使用的参数对于短选项也是必须使用的。...（1）显示文件 happy 中不重复的行。# uniq -u happy Happy Birthday Dear cjh! Happy Birthday to You!...这里uniq命令借助管道命令从标准输入设备读取文件，首先使用sort命令对文件进行排序，然后对排序结果进行操作。（4）删除文件中重复的行并输出到一个新文件。...注意:请不要使用 uniq 或任何其他工具从包含财务或其他重要数据的文件中除去重复行。在这种情况下，重复行几乎总是表示同一金额的另一个交易，将它除去会给会计部造成许多困难。

731 0

Linux删除重复文件

引言在Linux系统处理数据时，经常会遇到删除重复文件的问题。例如，在进行图片分类任务时，希望删除训练数据中的重复图片。在Linux系统中，存在一个fdupes命令可以查找并删除重复文件。 2....Fdupes介绍 Fdupes是Adrian Lopez用C语言编写的Linux实用程序，它能够在给定的目录和子目录集中找到重复文件，Fdupes通过比较文件的MD5签名然后进行字节比较来识别重复文件。...安装fdupes 以CentOS系统为例，fdupes的安装命令为： sudo yum install -y fdupes 4. fdupes的使用删除重复文件，并且不需要询问用户： $ fdupes...-dN [folder_name] 其中，-d参数表示保留一个文件，并删除其它重复文件，-N与-d一起使用，表示保留第一个重复文件并删除其它重复文件，不需要提示用户。.../ https://www.howtoing.com/fdupes-find-and-delete-duplicate-files-in-linux http://www.runoob.com/linux

13.4K2 0

1000T的文件找出重复字符串

假设有一个大小是1000T的文件,文件里每行是一个字符串求出重复的行思路: 先看有多少机器,如果1000台机器我们可以按行读取文件,把每行数据利用hash函数求出hashcode,再%1000

4701 0

Linux实用技巧——删除重复行

前言对于删除文件中的重复行，比如处理如下文件 [root@mobius ~]$cat file_test.txt aaa bbbbb ccccc 123 aaaaa 123 bbb aaa 需要得到的删除为...： 123 aaa aaaaa bbb bbbbb ccccc 下面给出四种方法 1. sort -u方法有关 sort 命令操作见Linux 工作常用命令笔记-sort排序解决方案如下： [root

2.8K1 0

Linux 删除文本中的重复行

在进行文本处理的时候，我们经常遇到要删除重复行的情况。那怎么解决呢？下面就是三种常见方法？第一，用sort+uniq，注意，单纯uniq是不行的。...shell> sort -k2n file | uniq 这里我做了个简单的测试，当file中的重复行不再一起的时候，uniq将服务删除所有的重复行。...经过排序后，所有相同的行都在相邻，因此unqi可以正常删除重复行。第二，用sort+awk命令，注意，单纯awk同样不行，原因同上。...P; D' 最后附一个必须先用sort排序的文本的例子，当然，这个需要用sort排序的原因是很简单，就是后面算法设计的时候的“局部性”，相同的行可能分散出现在不同的区域，一旦有新的相同行出现，那么前面的已经出现的记录就被覆盖了...参考推荐：删除文本中的重复行(sort+uniq/awk/sed)

8.6K2 0

利用 Linux 查找重复文件

在find的基础上，我们可与（如xargs命令）等其它基本Linux命令相结合，即能创造出无限的命令行功能，比如：可以快速查找出Linux某个文件夹及其子文件夹中的重复文件列表。...表示只打印了重复的行，这里使用代表打印出文件名相同的文件 uniq -w32 –all-repeated=separate 最后这里表示对MD5的前32个字节进行对比，以筛选出重复文件使用命令行的整个过程就是这么简单和容易...方法二：使用dupeGuru工具 DupeGuru是一个跨平台应用，有Linux、Windows和Mac OS X版本，它可以通过文件大小、MD5和文件名等多种标准来帮助用户找出Linux中的重复文件...比如从某游戏提取的游戏文本有重复的，我们希望找出所有重复的文本，让翻译只翻译其中一份，而其他的直接替换。那么这个问题该怎么做呢？...后半部分是find -type f -size {}c -print0，find指令我们前面见过，-size{}是指找出大小为{}bytes的文件，而-print0则是为了防止文件名里带空格而写的参数。

5.6K5 0

利用 Linux 查找重复文件

在find的基础上，我们可与（如xargs命令）等其它基本Linux命令相结合，即能创造出无限的命令行功能，比如：可以快速查找出Linux某个文件夹及其子文件夹中的重复文件列表。...表示只打印了重复的行，这里使用代表打印出文件名相同的文件 uniq -w32 –all-repeated=separate 最后这里表示对MD5的前32个字节进行对比，以筛选出重复文件使用命令行的整个过程就是这么简单和容易...方法二：使用dupeGuru工具 DupeGuru是一个跨平台应用，有Linux、Windows和Mac OS X版本，它可以通过文件大小、MD5和文件名等多种标准来帮助用户找出Linux中的重复文件。...比如从某游戏提取的游戏文本有重复的，我们希望找出所有重复的文本，让翻译只翻译其中一份，而其他的直接替换。那么这个问题该怎么做呢？...后半部分是find -type f -size {}c -print0，find指令我们前面见过，-size{}是指找出大小为{}bytes的文件，而-print0则是为了防止文件名里带空格而写的参数。

4.2K3 0

uniq命令 – 去除文件中的重复行

该命令的作用是用来去除文本文件中连续的重复行，中间不能夹杂其他文本行。去除了重复的，保留的都是唯一的，也就是独特的，唯一的了。...我们应当注意的是，它和sort的区别，sort只要有重复行，它就去除，而uniq重复行必须要连续，也可以用它忽略文件中的重复行。...语法格式：uniq [参数] [文件] 常用参数： -c 打印每行在文本中重复出现的次数 -d 只显示有重复的纪录，每个重复纪录只出现一次 -u 只显示没有重复的纪录参考实例删除连续文件中连续的重复行...85 Linux 85 [root@linuxcool ~]# uniq testfile test 30 Hello 95 Linux 85 打印每行在文件中出现重复的次数： [...，且每个纪录只出现一次： [root@linuxcool ~]# uniq -d testfile test 30 Hello 95 Linux 85 只显示没有重复的纪录： [root

3K0 0

leetcode: 找出不重复的列表

Input: [1,2,3,4] Output: false Example 3: Input: [1,1,1,3,3,4,3,2,4,2] Output: true 题目意思很简单，即如果整个列表是没有重复数字的

8083 0

Linux 查找重复文件方法汇总

在find的基础上，我们可与（如xargs命令）等其它基本Linux命令相结合，即能创造出无限的命令行功能，比如：可以快速查找出Linux某个文件夹及其子文件夹中的重复文件列表。...表示只打印了重复的行，这里使用代表打印出文件名相同的文件 uniq -w32 –all-repeated=separate 最后这里表示对MD5的前32个字节进行对比，以筛选出重复文件使用命令行的整个过程就是这么简单和容易...方法二：使用dupeGuru工具 DupeGuru是一个跨平台应用，有Linux、Windows和Mac OS X版本，它可以通过文件大小、MD5和文件名等多种标准来帮助用户找出Linux中的重复文件。...比如从某游戏提取的游戏文本有重复的，我们希望找出所有重复的文本，让翻译只翻译其中一份，而其他的直接替换。那么这个问题该怎么做呢？...后半部分是find -type f -size {}c -print0，find指令我们前面见过，-size{}是指找出大小为{}bytes的文件，而-print0则是为了防止文件名里带空格而写的参数。

2.4K3 0

使用uniq命令去除文件中的重复行

2.1K0 0

华为OD机试找出重复代码

本期题目：找出重复代码题目小明负责维护项目下的代码，需要查找出重复代码，用以支撑后续的代码优化，请你帮助小明找出重复的代码。...重复代码查找方法：以字符串形式给出两行代码（字符串长度1 找出两行代码中的最长公共子串。注：如果不存在公共子串，返回空字符串。...输入输入的参数text1，text2分别表示两行代码输出输出任一最长公共子串题解地址 ⭐️ 华为 OD 机考 Python https://blog.csdn.net/hihell/article

5051 0

如何用 awk 删除文件中的重复行【Programming】

[jb0vbus7u0.png] 假设您有一个文本文件，并且需要删除它的所有重复行。摘要要删除重复的行，同时保留它们在文件中的顺序，请使用： awk '!...对于文件的每一行，如果行出现次数为零，则将其增加一并打印该行，否则，它仅增加出现次数而无需打印该行。我对awk并不熟悉，所以我想了解它是如何通过这么短的脚本来实现这一点的。...uniq命令仅除去相邻的重复行。...sort -u your_file > sorted_deduplicated_file 使用cat，sort和cut 前面的方法将生成一个去重复的文件，其行将根据内容进行排序。...abc ghi def xyz klm 参考资料 Gnu awk 用户指南 awk 中的数组 Awk真值 Awk 表达式如何在Unix中删除文件中的重复行？删除重复行而不排序 awk '!

8.7K0 0

Linux文件随机抽取N行

有时候需要从大文件中随机抽取N行出来进行模拟，但是用python或者别的语言感觉不太方便，linux下直接分割感觉会更快捷。...一般可以考虑以下的方法： 1. shuf shuf -n100 filename # 从文件中随机选取100行 2. sort sort -R filename | head -n100 -R参数是将文件随机顺序...3. awk awk是一个处理文件神器，可以像下面这么写（别的写法也可实现）： awk 'BEGIN{srand()} {print rand()"\t"$0}' filename | sort -nk

8.8K2 0

python 去除重复行

from pandas import read_csv; df = read_csv('D://PA//4.3//data.csv') newDF = df...

3.1K2 0

Rdfind - 在Linux中查找重复文件

在本文中将介绍rdfind命令工具在linux中查找和删除重复的文件，使用之前请先在测试环境跑通并对测试环境进行严格的测试，测试通过之后再在生产环境进行操作，以免造成重要文件的丢失，数据是无价的。...Rdfind来自冗余数据查找，用于在多个目录或者多个文件中查找重复的文件，它使用校对和并根据文件查找重复项不仅包含名称。 Rdfind使用算法对文件进行分类,并检测那些是重复文件，那些是文件副本。...你可以在 results.txt 文件中看到可能是重复文件的名字。通过检查 results.txt 文件，你可以很容易的找到那些重复文件。如果愿意你可以手动的删除它们。...此外，你可在不修改其他事情情况下使用 -dryrun 选项找出所有重复文件，并在终端上输出汇总信息。...删除重复文件，就运行： [root@ds Image]# rdfind -deleteduplicates true /Image [root@ds Image]# 如果你不想忽略空文件，并且和所哟重复文件一起删除

5.3K6 0

Linux|如何查找和删除重复文件

在很多情况下，您可能会发现自己不小心下载了重复的mp3、pdf和epub文件（以及其他类型的文件），并将它们复制到了多个文件夹中。这种做法可能会使您的文件夹变得杂乱不堪，充斥着许多无用的重复文件。...该工具会深入地遍历目录，找出内容完全相同的文件，让您可以执行删除或移动这些重复项的操作。 rdfind 采用一种算法来对文件进行排序，并确定哪个副本是原始文件，而将其他的归类为副本。...该文件包含 rdfind 找到的所有重复文件。如果需要，您可以查看该文件并手动删除重复的文件。...Rmlint Rmlint 是一个命令行工具，用于在 Linux 系统中查找和删除重复的和类似 lint 的文件。...其快速模糊匹配算法功能可帮助您在一分钟内找到重复文件。它是可定制的，您可以提取所需的精确重复文件，并从系统中擦除不需要的文件。

1921 0

PHP——判断数组中是否有重复值并找出重复值

可以用来测试需要唯一凭据号码的,是否有重复值,不过一般直接使用uuid了,简单粗暴就解决问题,这个就简单的测试生成的数据是否有重复值吧 <?...循环指定次数 for ($i=0; $i<100; $i++) { $prize[$i] = build_rand_no(); } //打印数组 var_dump($prize); //检测是否有重复值...= count(array_unique($prize))) { echo '该数组有重复值'; } //返回重复值 function fetchArray($array) { //

681 0

Linux查看文件，去掉注释行和空白行

例子：查看filebeat配置文件 # grep "^[a-Z]" /etc/filebeat/filebeat.yml filebeat.inputs: filebeat.config.modules

3.1K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

linux 找出文件重复行

基础概念

相关优势

类型与应用场景

示例操作

查找所有重复行

显示所有行并标记重复行

统计每行的重复次数

可能遇到的问题及解决方法

问题1: 文件很大，排序操作很慢

问题2: 文件编码不一致导致乱码

问题3: 需要忽略特定字符进行比较

示例代码（解决编码问题和忽略特定字符）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐