Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Python网络数据抓取(8):正则表达式

Python网络数据抓取(8):正则表达式

作者头像
数据科学工厂
发布于 2024-06-06 11:07:41
发布于 2024-06-06 11:07:41
10900
代码可运行
举报
运行总次数:0
代码可运行

引言

正则表达式是查找文本模式的强大工具。它们就像在 Word 文档上使用 Ctrl-F 一样,但功能比它们强大得多。

当您验证任何类型的用户输入时,尤其是在抓取网页时,这非常有帮助。正则表达式的应用范围非常大。

一开始这可能会很有挑战性,但一旦你准备好了,相信我,这会让你的工作更有效率。

实战

它的符号和语法在所有编程语言中都是通用的。为了理解正则表达式,我们将验证您在 Python 中进行网页抓取时可能遇到的某些字符串。

假设您想从网络上抓取电子邮件以用于公司的潜在客户开发流程。电子邮件的第一部分可以包括:

  • 大写字母 [A-Z]
  • 小写字母 [a-z]
  • 数字 [0–9]

现在,如果被抓取的电子邮件不遵循此模式,那么我们可以轻松忽略该电子邮件并可以继续处理另一封电子邮件。我们将用 python 编写一个简单的代码来识别此类电子邮件,并且我们将使用 python 的 re 库。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import re

pattern = "[a-zA-Z0-9]+@"

括号允许我们指定我们正在查找给定字符串(例如电子邮件)中的字符。我们将匹配模式,直到 @ 符号和括号后面的加号意味着我们正在寻找这些字符中的一个或多个字符的任意组合。

由于电子邮件是由许多域提供的,因此我们必须指定我们正在寻找一个或多个大写和小写字母。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pattern = "[a-zA-Z0-9]+@[a-zA-Z]"

现在,让我们检查一下这是否可以与 if 和 else 语句一起使用。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
email = input()

if(re.search(pattern,email)):
 print(“Valid email”)
else:
 print(“invalid email”)

在终端上运行此文件进行检查。

现在,让我们试试 info@scrapingdog.com。

这是您识别正确电子邮件字符串的方法。现在,我们将学习如何使用正则表达式将一个字符替换为另一个字符

字符替换

当您对大型数据库进行更改(其中可能有数千个字符串需要更新)时,这会派上用场。

现在,假设我们需要将每个电话号码输入到不带连字符的连续数字字符串中,但我们希望保留单词形式的连字符。我们将为此编写正则表达式。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import re
pattern = (\d\d\d)-(\d\d\d)-(\d\d\d\d)

“\d”将匹配任何单个数字。每组括号类似于一个组。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
new_pattern = r”\1\2\3

因此,从左到右我们分为三个不同的组。但我们需要编写我们想要这个模式变成的内容。让我们保留该组但删除连字符。

每个反斜杠数字代表一个组,因此我们的新模式是将三个组连接在一起,而不使用连字符。我们将 r 放在字符串之前,将其视为原始字符串。

现在,让我们接受用户的输入并检查它是否有效。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import re

pattern = (\d\d\d)-(\d\d\d)-(\d\d\d\d)”
new_pattern = r”\1\2\3"

phoneNumber = input()

final_output = re.sub(pattern, new_pattern, phoneNumber)

print(final_output)

这只是如何在 Python 数据抓取中使用正则表达式的基本示例。正则表达式适用于任何语言,并且响应速度相当快。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 冷冻工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一个正则表达式测试(只可输入中文、字母和数字)
  在项目中碰到了正则表达式的运用,正则还是非常强大的,不管什么编程语言,基本上都可以用到。之前在用java时特别是对用户名或密码使用正则非常爽,写脚本上用正则也非常爽,可是到了OC这却把我虐了一把,可能是对OC掌握的不够。这里就罗列了从网上找的很有用的资料,感谢大神们的贡献。 首先举一个例子: 匹配9-15个由字母/数字组成的字符串的正则表达式: NSString * regex = @"^[A-Za-z0-9]{9,15}$"; NSPredicate *pred = [NSPredi
猿人谷
2018/01/17
5.6K0
Python正则表达式
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match() 就返回 None
忆想不到的晖
2021/04/04
8400
Python正则表达式
iOS-正则表达式的简单使用
iOS -正则表达式的简单使用 ✨建议收藏,用到时候一查就明白了 1.我们一般将谓词和正则表达式配合使用,这是最常用的方法。 - (BOOL)validateNumber:(NSString *) textString { // 其中^[0-9]+$表示字符串中只能包含>=1个0-9的数字。 NSString* number=@"^[0-9]+$"; NSPredicate *numberPre = [NSPredicate predicateWithFormat:@"SELF MA
xx_Cc
2018/05/10
1.6K0
【网络编程】正则表达式快速上手指南
可以通过 std::regex_constants 中的标志调整正则行为:
修修修也
2025/03/31
430
【网络编程】正则表达式快速上手指南
必备之常用正则表达式
熟练而优雅的使用正则,对于程序员来讲,实在太有意义了(即便非此类者,也是好处多多);它辅助处理复杂的文本查询和字符串操作,不仅能用之于代码,还能雅之于编辑器,浏览器,Terminal等,实在是编码居家必备之优技。而正则表达式,若要快速掌握也是不易,所以此文存在的意义,即汇集些常用的正则表达式,以备不时之需。 在开篇之前,推荐几篇常看看的文章,以及几个正则表达式编辑器(在线测试工具): 正则表达式30分钟入门教程 59分钟学会正则表达式 8 Regular Expressions You Should Kno
晚晴幽草轩轩主
2018/03/27
7320
Python基础教程(十六):正则表达式
💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝💝💝如有需要请大家订阅我的专栏【Python系列】哟!我会定期更新相关系列的文章 💝💝💝关注!关注!!请关注!!!请大家关注下博主,您的支持是我不断创作的最大动力!!!
用户11147438
2024/06/14
830
C++正则表达式攻略:从基础到高级应用
正则表达式是一种用于匹配、搜索和编辑文本的字符串模式。它由一系列字符和特殊符号构成,可以灵活地表达文本的模式、结构和特征。正则表达式在各种编程语言和应用程序中广泛应用,包括C++。它可以用来在文本中查找特定模式的字符串、验证输入的格式、提取信息和进行文本替换等操作。
Lion Long
2025/01/19
1670
C++正则表达式攻略:从基础到高级应用
常用正则表达式锦集与Python中正则表达式的用法
1、常用正则表达式 最简单的正则表达式是普通字符串,只能匹配自身 '[pjc]ython'可以匹配'python'、'jython'、'cython' '[a-zA-Z0-9]'可以匹配一个任意大小写
Python小屋屋主
2018/04/16
2.6K5
总结 Python 常见的验证正则表达式
正则表达式(Regular Expression)通常被用来检索、替换那些符合某个模式(规则)的文本。
AirPython
2021/01/05
1.9K0
总结 Python 常见的验证正则表达式
Java正则表达式大全(参考)
ma布
2024/10/21
830
Python中的正则表达式(二)
re.search():此方法返回None(如果模式不匹配),或者返回re.MatchObject,其中包含有关字符串的匹配部分的信息。此方法在第一个匹配项后停止,因此它最适合测试正则表达式,而不是提取数据。
用户7466307
2020/07/14
1.3K0
正则表达式来了,Excel中的正则表达式匹配示例
当需要在单元格区域中找到某个值时,可以使用MATCH函数。在单元格中查找特定字符串时,FIND函数和SEARCH函数非常方便。如何知道单元格中是否包含与给定模式匹配的信息?显然,可以使用正则表达式。
fanjy
2021/11/10
22.2K0
正则表达式来了,Excel中的正则表达式匹配示例
正则表达式
一、概述 正则表达式(regular expression)是一种表达文本模式(即字符串结构)的方法,有点像字符串的模板,常常用作按照“给定模式”匹配文本的工具。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。 JavaScript通过内置对象RegExp支持正则表达式,有两种方式创建正则表达式对象。例如,如果我们想匹配字符串中所有"at"的实例,可以这么写: 第一种:使用字面量,以斜杠表示开始和结束。 var
小胖
2018/06/27
5440
java 正则表达式详细讲解和全面案例,和根据正则筛选需要内容「建议收藏」
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/106065.html原文链接:https://javaforall.cn
全栈程序员站长
2022/08/09
3740
jq正则表达式_JAVA 正则表达式
正则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE)使用单个字符串来描述、匹配一系列符合某个句法规则的字符串搜索模式。
全栈程序员站长
2022/11/05
1.8K0
正则表达式的学习与小结
目前,正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境,以及很多的应用软件中,都可以看到正则表达式的影子。
阳光岛主
2019/02/19
7320
R语言与正则表达式
R语言在提取字符串上有着强大的能力,其中字符串可以看做为文本信息。今天需要跟大家介绍一款更为通用、更加底层的文本信息提取工具——正则表达式。
用户1359560
2019/05/24
2.5K0
正则表达式:理解与运用
正则表达式,也称为正则表达式或简称正则,是一种强大的文本处理工具。它可以在文本中查找、替换和提取符合特定模式的文本。本文将解释正则表达式的概念、用法和常见参数。
为了伟大的房产事业
2024/03/15
4060
Python正则表达式
正则表达式是一个很强大的字符串处理工具,几乎任何关于字符串的操作都可以使用正则表达式来完成,作为一个爬虫工作者,每天和字符串打交道,正则表达式更是不可或缺的技能,正则表达式的在不同的语言中使用方式可能不一样,不过只要学会了任意一门语言的正则表达式用法,其他语言中大部分也只是换了个函数的名称而已,本质都是一样的。下面,我来介绍一下python中的正则表达式是怎么使用的
王大力测试进阶之路
2019/10/25
9570
Python正则表达式
正则表达式详解
正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。
黄规速
2022/06/30
1.4K0
正则表达式详解
相关推荐
一个正则表达式测试(只可输入中文、字母和数字)
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文