grep家族包括grep、egrep和fgrep。其功能是在指定的文件中查找一个指定格式或者内容的字符串,并将匹配的字符串所在行打印出来。...如果不指定任何文件名称,或给定的文件名为“-”,则从标准输入设备读取数据。grep支持正则表达式搜索文本。...grep默认会在每个输出前打印文件名,文件名与匹配行之间会有一个冒号隔开,-Z选项告诉grep不要使用冒号了,使用一个NUL字符; -v,--invert-match:反向选择,显示不包含匹配文本的所有行...grep 'test' d* (4)打印在aa,bb,cc文件中匹配test的行,并显式行号。...#方法一:使用符号\| grep "pattern1\|pattern2" filename #方法二:使用-E选项,用扩展正则表达式解释匹配模式 grep -E "pattern1|pattern2
能够根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。...根据所提供的编辑器命令匹配数据。 按照命令修改流中的数据。 将新的数据输出到 STDOUT。...16行结束 /pattern1/command 匹配到pattern1的行【常用】 /pattern1/,/pattern2/command 匹配到pattern1的行开始,到匹配到pattern2的行结束...1,+5d 删除 1 行到 6 行的内容 /pattern1/d 删除每行中匹配到 pattern1 的行内容 /pattern1/,/pattern2/d 删除匹配到 pattern1 的行直到匹配到...例子 删除配置文件 /etc/nginx 中的所有注释行和空行 > sed -i '/[:blank:]*#/d;/^$/d' nginx 在配置文件 /etc/nginx 中所有不以 # 开头的行前面添加
, 而 tac 则是由最后一行到第一行反向在萤幕上显示出来!...------------------------------------------ 在Linux中echo命令用来在标准输出上显示一段字符,比如: echo "the echo command test...用echo命令输出加引号的字符串时,将字符串原样输出; 用echo命令输出不加引号的字符串时,将字符串中的各个单词作为字符串输出,各字符串之间用一个空格分割。...pattern1 | pattern2 files :显示匹配 pattern1 或 pattern2 的行, grep pattern1 files | grep pattern2 :显示既匹配...pattern1 又匹配 pattern2 的行。
能够根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。...根据所提供的编辑器命令匹配数据。 按照命令修改流中的数据。 将新的数据输出到 STDOUT。...16行结束 /pattern1/command 匹配到pattern1的行【常用】 /pattern1/,/pattern2/command 匹配到pattern1的行开始,到匹配到pattern2的行结束...1,+5d 删除 1 行到 6 行的内容 /pattern1/d 删除每行中匹配到 pattern1 的行内容 /pattern1/,/pattern2/d 删除匹配到 pattern1 的行直到匹配到...例子 删除配置文件 /etc/nginx 中的所有注释行和空行 > sed -i '/[:blank:]*#/d;/^$/d' nginx Bash Copy 在配置文件 /etc/nginx 中所有不以
加上-n参数即可 图片 选项 -e 如果想输出第二行和第五行的内容,可以多次指定-e参数 图片 选项 -f 如果脚本(就是引号中的)比较多,可以把这些脚本写到一个文件中,每行一个 图片...把2p(打印第二行)和4p(打印第四行)写到script文件中,使用sed -f指定脚本名 选项 -i.bak sed -i.bak '/pattern/' FILENAME # 在修改文件之前,...先备份,在修改,备份文件名为 FILENAME.bak script 地址 不写地址 如果省略地址,处理文件中的所有行 单地址 # # 行号,指定的行 $ # 最后一行 /pattern/ # 能够被正则表达式匹配到的每一行...地址范围 #,# # 行号,第几行到第几行 #,+# # 比如10,+20,就是10到10+20行 /pattern1/,/pattern2/ # 从满足pattern1模式开始,到满足pattern2...r /PATH/FILENAME # 从指定的文件中读取内容到模式空间中匹配到的行后面 命令 d 图片 删除模式空间的第2行,打印其他行 命令 !
sed叫做流编辑器,在shell脚本和Makefile中作为过滤器使用非常普遍,也就是把前一个程序的输出引入sed的输入,经过一系列编辑命令转换成为另一种格式输出。...的行,将该行第一个匹配pattern1的字符串替换为pattern2 /pattern/s/pattern1/pattern2/g:查找符合pattern的行,将该行所有匹配pattern1...-e:允许对输入数据应用多条sed命令编辑。 -i:将修改结果直接写入到读取数据的文件,而不是由屏幕输出。(1.修改了文件; 2.由cat可查看) -f: 指定sed脚本的文件名。... 例1:给每行后面添加一行空行 例2:用sed模拟倒序(tac)打印的过程 例3.追加匹配行到文件末尾 例4:将一列内容变为一行 例5:求出1-100的求和 例6:打印输出奇数行和偶数行...不同的是,sed使用的正则表达式是括在斜杠线"/"之间的模式。 如果要把正则表达式分隔符"/"改为另一个字符,比如o,只要在这个字符前加一个反斜线,在字符后跟上正则表达式,再跟上这个字符即可。
][文件或目录...] grep pattern files # 搜索文件中包含pattern的行 grep -v pattern files # 搜索文件中不包含pattern的行...grep -f pattern.txt files # 搜索的pattern来自于文件中 grep -i pattern files # 不区分大小写。...默认搜索是区分大小写的 grep -i pattern files # 只匹配整个单词,而不是字符串的一部分(如搜索hello,不会匹配到helloworld) grep -n pattern files...# 显示不匹配的文件名 grep -C number pattern files # 额外显示匹配行的上下[number]行 grep pattern1 | grep pattern2 files...# 显示既匹配pattern1,又匹配pattern2的行 grep -E "pattern1|pattern2" files # 显示匹配pattern1或者pattern2的行, grep
y 逐字符替换 p 打印文本行 = 打印行号 w 向文件中写入数据 r 从文件中读取数据 二、使用 sed 命令进行文本替换 sed 使用 s 命令来进行文本替换操作,基本格式如下: sed 's...bin 替换为 BIN 与数字寻址一样,也可以使用文本过滤区间来过滤行: sed '/pattern1/,/pattern2/ edit_command' file 这行命令会在文件 file 中先寻找匹配...pattern1 的行,然后从该行开始,执行编辑命令,直到找到匹配 pattern2 的行。...但是需要注意的是,使用文本区间过滤文本时,只要匹配到了开始模式(pattern1),编辑命令就会开始执行,直到匹配到结束模式(pattern2),这会导致一种情况:一个文本中,先匹配到了一对 pattern1...、pattern2,对该文本区间中的文本执行了编辑命令;然后,在 pattern2 之后又匹配到了 pattern1,这时就会再次开始执行编辑命令,因此,在使用文本区间过滤时要格外小心。
作者丨五角钱的程序员 图丨pexels 今天继续讲解美团java一面面试题目,Linux怎么搜索文件中的字符串,并把这个字符串所在行和下面一行的内容写到另外一个文件中?...默认情况区分大小写, grep -l pattern files :只列出匹配的文件名, grep -L pattern files :列出不匹配的文件名, grep -w pattern files...pattern1 | pattern2 files :显示匹配 pattern1 或 pattern2 的行, grep pattern1 files | grep pattern2 :显示既匹配 pattern1...\ 分别标注单词的开始与结尾。...若不指定任何文件名称,或是所给予的文件名为“-”,则grep指令会从标准输入设备读取数据。 END
实例 /dev/null相当于linux中的回收站 $ grep "$USER" passwd > /dev/null && echo "$USER是存在的"|| echo "$USER是不存在的"...-f加载存放动作的文件 -r支持拓展正则 -i直接修改文件 匹配模式 pattern 5 只处理第五行 5,10只处理第五行到第十行 /pattern1/只处理能匹配到pattern1的行 /pattern1.../,/pattern2/只处理从匹配到pattern1的行到匹配pattern2的行 command命令 查询 p 新增 a在匹配行的后面新增 i在匹配行前新增 r外部文件读入,行后新增 w匹配行写入外部文件...删除 d 修改 s/old/new,只修改匹配行中第一个old s/old/new/g修改匹配行中所有的old s/old/new/ig忽略大小写 ---- p相当于print 匹配的行打印两次 原始行...+匹配的行 $ sed "p" passwd 只打印匹配的行 $ sed -n "p" passwd 匹配 mail的那行 $ sed "/mail/ p" passwd -n ?
版本 一般在cmd里面pip install ×××,作者是用pycharm解释器的,里面可用搜索库名进行下载,写python爬虫一般推荐这个 而chromedriver版本对应关系可以自行百度,下载完安装到自己选定的路径...', re.S) contents1 = re.findall(pattern1, driver.page_source) pattern2 = re.compile(r'<td class="...,输入对应<em>的</em>编号:')) want_url = str(URLlist[step - 1]) ②爬取所需要下载<em>的</em>小说各个章节<em>的</em>URL,将其依次存入队列 <em>在</em>第一步<em>中</em>获得对应网页<em>的</em>URL进行队列存储...base_url + part_url) q.put(title + '+' + base_url + part_url) driver.close() driver.quit() ③首先会<em>打印</em>出章节名字<em>和</em>对应<em>的</em>...() # 避免多个线程保卫同一块<em>数据</em><em>的</em>时候,产生错误,所以加锁 好了,具体全部代码如下(只需更改driverchrome安装<em>的</em>路径<em>和</em>存储小说<em>的</em><em>文件</em>夹路径就可以运行了): import queue import
特别说明:上面的两个日期必须是日志中打印出来的日志,否则无效....如果我们查找的日志很多,打印在屏幕上不方便查看, 有两个方法: (1)使用more和less命令, 如: cat -n test.log |grep "地形" |more 这样就分页打印了,通过点击空格键翻页...// 用egrep同样可以实现 awk ’/123|abc/’ filename // awk 的实现方式 2、与操作 grep pattern1 files | grep pattern2...:显示既匹配 pattern1 又匹配 pattern2 的行。...,在短短的一个小时的时间中就有上千条或者上万条数据,仅仅根据条件筛选的话非常麻烦,即使筛选出来也会有很多条数据。
/PATH -name “.h”* 的结果,也是就说,第一个命令中 grep 是在 find 查到的结果中进行二次筛选操作。...查找所有 .h 和 .c 文件中的含有 helloworld 字符串的文件 find /PATH /( -name "*.h" -or -name "*.c" /) -exec grep -in "helloworld...”,其中第二次 grep 使用了 -v 选项,即逆向匹配,打印出不匹配的行 grep -r 'function_name' * | grep -v '.svn' 或者更简单一些,直接使用 --exclude-dir...grep pattern1 files | grep pattern2 显示既匹配 pattern1 又匹配 pattern2 的行。...#只匹配整个单词,而不是字符串的一部分(如匹配‘magic’,而不是‘magical’), grep -C number pattern files #匹配的上下文分别显示[number]行, find
相应命令的形式为’command’ { } ;,注意{ }和;之间的空格 find ./ -size 0 -exec rm {} ; 删除文件大小为零的文件 (还可以以这样做:rm -i find...find / -name “CON.FILE” -depth –print 它将首先匹配所有的文件然后再进入子目录中查找 -mount:在查找文件时不跨越文件系统mount点。 find ....0则表示找到了匹配的行。 -l,–files-with-matches 打印匹配模板的文件清单。 -L,–files-without-match 打印不匹配模板的文件清单。...-n,–line-number 在匹配的行前面打印行号。 -s,–silent 不显示关于不存在或者无法读取文件的错误信息。 -v,–revert-match 反检索,只显示不匹配的行。...pattern1 | pattern2 files :显示匹配 pattern1 或 pattern2 的行, grep pattern1 files | grep pattern2 :显示既匹配 pattern1
][文件或目录...] grep pattern files # 搜索文件中包含pattern的行 grep -v pattern files # 搜索文件中不包含pattern的行 grep...-f pattern.txt files # 搜索的pattern来自于文件中 grep -i pattern files # 不区分大小写。...# 显示不匹配的文件名 grep -C number pattern files # 额外显示匹配行的上下[number]行 grep pattern1 | grep pattern2 files...# 显示既匹配pattern1,又匹配pattern2的行 grep -E "pattern1|pattern2" files # 显示匹配pattern1或者pattern2的行, grep -E相当于...的行 sed -n '/pattern1/,/pattern2/p' file # 显示patter1与pattern2之间的行 sed '10d' file # 删除第10行 sed '10,20d
sed command file command 部分,针对每行要进行的处理 file,要处理的文件 Actions d:删除该行 p:打印该行 i:在行的前面插入新行 a:在行的后面插入新行 r:读取指定文件的内容...sed -n '/pattern1/,/pattern2/p' file # 显示patter1与pattern2之间的行 sed '10d' file # 删除第10行 sed '10,20d...# 删除行首和行尾的空白:空格,制表符 sed 's/AA/BB/' file # 将文件中的AA替换成BB,只替换一行中第一次出现的AA,替换后的结果输出到屏幕 sed 's/AA/BB/g...' file # 将文件中的所有AA都替换成BB,替换后的结果输出到屏幕 sed -i 's/AA/BB/g' file # 将文件中的所有AA都替换成BB,直接更改文件的内容 sed '/CC/s/AA...hello,通常用来为文件增加标题 sed '1a\hello' file # 在第1行后面插入一行,内容为hello sed '1r file2' file1 # 在第1行后面读入file2
grep pattern files # 搜索文件中包含pattern的行 grep -v pattern files # 搜索文件中不包含pattern的行 grep -f pattern.txt...files # 搜索的pattern来自于文件中 grep -i pattern files # 不区分大小写。...# 显示不匹配的文件名 grep -C number pattern files # 额外显示匹配行的上下[number]行 grep pattern1 | grep pattern2 files...# 显示既匹配pattern1,又匹配pattern2的行 grep -E "pattern1|pattern2" files # 显示匹配pattern1或者pattern2的行, grep -E相当于...的行 sed -n '/pattern1/,/pattern2/p' file # 显示patter1与pattern2之间的行 sed '10d' file # 删除第10行 sed '10,20d
我是啃书君 我和朋友说:俗话说,闲来没事干,不如斗地主,哎,我们不斗地主,就是玩~。那不斗地主,我们干点啥好捏~,不如看电影?!...我说:哎呀,被你发现了,没事,那我们去电影天堂爬电影数据,到时候想看哪部就下载下来,慢慢看! 爬取分析 在爬取之前,分析爬取的逻辑和理清思路。...接下来我们创建了一个名为pattern2的正则表达式对象来获取a链接里面的href,通过使用列表推导式,我们将每个电影的URL链接存放在列表中,然后将每个列表的元素传递到get_data()方法中。...,电影图片等数据只有一个,而电影下载链接可能有多个,例如电视剧的下载链接就有多个,我们如果只用一个正则表达式对象来获取电视剧数据信息的话,只能获取到一个下载链接,所以我们首先通过正则表达式来获取电影图片...获取完数据信息后,所有的数据放在字典中,并循环打印出来,运行结果如下: 由于本人觉得这种打印出来的数据算是比较好看了,所以没做进一步的数据保存,大家可以根据需要自行将这些数据存储到其他地方。
在讲解如何实际应用正则表达式之前,先教大家学习并掌握正则表达式的基本语法(匹配规则)。 正则表达式匹配过程如下: (1)将定义好的正则表达式和字符串进行比较。...举例: import re pattern1 = re.compile(r'music') #例1中“i love the music”里的music替换成python print(re.sub(pattern1..., 'python', 'i love the music')) pattern2 = re.compile(r'(\d+)') #例2中“数字123 和9”被python替换。...] 分析网页源码: [c03f30dfba60fd3d4f564db82478a7be.png] 可以看到章节标题在h3标签中,其class为j_chapterName;正文内容在p标签中,清楚这些之后...最后 本文汇总正则表达式常用的基本语法,并结合Python进行举例演示 最后实战讲解正则表达式在爬虫中的应用。
引言 grep 是一种功能强大的命令行工具,可以在一个或多个输入文件中搜索与正则表达式匹配的行,并将每条匹配的行写入标准输出。 在本文中,我们将向你展示如何使用GNU grep搜索多个字符串或模式。...使用grep基本正则表达式搜索多个模式的语法如下: grep 'pattern1\|pattern2' file... 始终将正则表达式括在单引号中,以避免shell解释和扩展元字符。...使用扩展正则表达式时,请不要转义|运算符: grep -E 'pattern1|pattern2' file... Grep多个字符串 文字字符串是最基本的模式。...在下面的例子中,在 Nginx 日志错误文件内,查找包含单词 fatal,error以及critical的所有行: grep 'fatal\|error\|critical' /var/log/nginx...因此,如果要搜索“error”,grep还将打印用较多的单词(例如“errors”,“errorless”,“antiterrorists”)。
领取专属 10元无门槛券
手把手带您无忧上云