Python -正则表达式匹配页面源代码中的urls

Python正则表达式是一种强大的工具，用于在文本中查找、匹配和操作字符串。在处理页面源代码时，可以使用正则表达式来提取其中的URL。

正则表达式是一种模式匹配的工具，可以通过定义特定的模式来匹配字符串。在Python中，可以使用re模块来进行正则表达式的操作。

以下是使用Python正则表达式匹配页面源代码中的URL的步骤：

导入re模块：在Python中，需要先导入re模块才能使用正则表达式的功能。

import re

定义正则表达式模式：根据URL的特点，可以使用正则表达式来定义匹配模式。例如，可以使用以下模式来匹配常见的URL格式：

pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'

使用re模块进行匹配：使用re模块的findall函数来查找匹配的URL。该函数会返回一个包含所有匹配项的列表。

urls = re.findall(pattern, source_code)

在上述代码中，source_code是页面源代码的字符串。

处理匹配结果：根据需要，可以对匹配到的URL进行进一步处理，例如打印、保存或进行其他操作。

下面是一个完整的示例代码：

import re

source_code = """
<html>
<head>
<title>Example Page</title>
</head>
<body>
<a href="http://www.example.com">Example Website</a>
<a href="https://www.example.com">Secure Example Website</a>
<a href="http://www.example.com/page">Example Page</a>
</body>
</html>
"""

pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
urls = re.findall(pattern, source_code)

for url in urls:
    print(url)

运行上述代码，将输出以下结果：

http://www.example.com
https://www.example.com
http://www.example.com/page

这样，我们就成功使用Python正则表达式匹配了页面源代码中的URL。

Python -正则表达式匹配页面源代码中的urls

、

我使用这个模式来匹配给定网页中的每个url：<p>https://example.com</p><font color="E80000">https://example.com</font></a> urls = re.find

浏览 1提问于2017-02-09得票数 0

回答已采纳

1回答

使用已经打开的safari选项卡的python从safari保存网页源？

、、、

基本上，我在safari上安装了一个自动页面刷新器。我每30秒就会有5个Safari窗口自动刷新。我的目标是使用python获取所有打开的网页的列表。我用这个来做：urls = appscript.app('Safari').windows.tabs.URL()这将返回带有urls的打开选项卡列表。下一步是获取所有这些打开选项卡的源代码</e

浏览 4提问于2016-09-24得票数 3

2回答

嘿，伙计们，我正在为我的网站编写一个跟踪系统，当我进入管理页面并强迫用户跟随它时，它工作得很好，但是我的下面的按钮不工作，它只是刷新网站，只是想知道是否有人可以帮助我，请。提前谢谢。编辑的`<button type="button" class="btn btn-primary btn-lg" href="{% url "accounts:follow" username=object.username%}&q

浏览 5提问于2017-05-06得票数 0

回答已采纳

1回答

如何分析地址？

、

请帮助配置urls.pymysite.com/url (r '^ admin /', include (admin.site.urls)), base_page ()接受一个位置参数，但给出了两个异常

浏览 5提问于2014-04-02得票数 0

回答已采纳

1回答

使用Python和Selenium为Bet365现场直播匹配数据刮取创建url

、、、

我正试图从获得每一场直播比赛的urls。下面是一个python脚本，在这个脚本中，我使用Selenium来解析包含所有活动匹配的主页。我需要像这样的EV15569134772C1 it来为每个匹配创建我需要的urls，但是它不在页面源代码中。

浏览 2提问于2021-02-01得票数 1

回答已采纳

1回答

Google分析设备类型聚合在与正则表达式匹配的多个页面上

、

我在我的网站上有几个页面，我只对我的消息系统的一些特定页面的设备类型分布感兴趣(移动与平板电脑与台式机)。我希望有一个设备类型的聚合视图，只有匹配正则表达式^/conversations/*的页面(*应该是一个仅匹配文档ID的正则表达式，如/conversations/5e4cf324fab3582bfe87ee2d) 我能

浏览 9提问于2020-03-11得票数 0

2回答

与url匹配的pcre(php)正则表达式

、、

我正在项目中做SEO工作，以匹配来自可能的URL的最佳url，所以我尝试使用url模式的preg_match()函数来匹配请求url。请任何人帮助我创建正则表达式，只匹配来自所有urls的特定urls，我是正则表达式中的新手，请看我的资料。2)。 3)。我想匹配2,3 ur

浏览 0提问于2015-02-23得票数 0

回答已采纳

4回答

为什么在“$”之后包含'/‘的URL返回一个未找到的页面错误(404)

、

当我将一个'/‘添加到索引URL的末尾时，该页面返回一个404错误(未找到页面)，如果我从URL末尾删除'/’，页面就会正常工作。 url(r'^admin/', admin.site.urls),]

浏览 5提问于2017-10-03得票数 4

回答已采纳

1回答

ruby正则表达式使用最后一个匹配来分隔字符串，但应该首先使用

、、、

我正在解析一个网站的源代码，并且正在使用这个正则表达式：self.agent.page.content包含由mechanize获取的页面的源代码。正则表达式基本上可以工作，但在第二个匹配中，它确实获取了比它应该获取的更多<e

浏览 1提问于2012-04-06得票数 0

回答已采纳

1回答

如何使用python存储从URL提取的标题？

、、、、

我的任务是从URL列表中提取标题和meta_description。我用过goose。我做得对吗？

浏览 4提问于2016-06-23得票数 1

1回答

Python urllib2响应404错误，但url可以打开

、、、、

当我使用Python或urllib2打开urls时，我遇到了一种情况。我得到404‘页面找不到’的回应。例如，url = '‘。但是，我可以在浏览器中复制和粘贴这些urls并访问它们。我需要从这些页面的html源代码中获取一些内容。因为我不能使用请求或urllib2打开这些urls，所以不能使用BeautifulSoup从html源代码中提取元素。有没有办法利用Python</em

浏览 0提问于2015-06-16得票数 1

回答已采纳

2回答

匹配不包含特定单词的url。

对于不匹配urls的正则表达式，我需要一些帮助：而不是匹配这些静态urls：我已经读了许多帖子(也在这个网站)，但似乎没有任何工作，如预期。谢谢你的帮助。我发布了更多的信息，以获得更好的帮助。我需要的正则

浏览 4提问于2018-01-11得票数 0

4回答

php preg_match()正则表达式

、、

我正在项目中做SEO工作，以匹配来自可能的URL的最佳url，所以我尝试使用url模式的preg_match()函数来匹配请求url。请任何人帮助我创建正则表达式，只匹配来自所有urls的特定urls，我是正则表达式中的新手，请看我的资料。遵循6 urls， 2) 4) 6) 我想匹

浏览 3提问于2015-02-24得票数 1

回答已采纳

1回答

无法绘制页面。姜戈

、、

我知道url正在查找视图，但它不会呈现页面/或anything...like打印的HttpResponse。我正在找一个迷路的疑难解答。在我看来，一切似乎都是相互关联的，但不知何故却不是？urls.py (项目)from django.contrib import admin url(r'^admin/', admin.si

浏览 3提问于2016-02-16得票数 2

回答已采纳

1回答

使用正则表达式查找字符串中某个模式的所有匹配项

、

所以我对regex非常陌生，我已经在我的项目中成功地使用了它，但只找到了一个特定的匹配项。链接示例1：我用下面的代码搜索链接： } 我第一次发现源字符串是错误的，所以我在下面的字符串<

浏览 20提问于2018-06-08得票数 -1

2回答

匹配没有查询字符串的Url路径

、

我希望匹配Url中的路径，但忽略查询字符串。正则表达式应该在querystring之前包含一个可选的尾随斜杠。/path/?a=123&b=123 因此，字符串'/path‘应该与上述urls中的任意一个相匹配。我尝试过以下正则表达式<

浏览 0提问于2013-10-28得票数 10

回答已采纳

1回答

传递变量的Django urls.py问题

、

我有一个名为portfolio的应用程序，我正在尝试绘制页面，以便最终得到一个始终存在的固定区域，称为“画廊”。我已经设置好了，它工作得很好，但是图片库的项目被映射到page_type区域，比如‘图像’，‘视频’等等，所以我希望我的根urls.py能检测到这一点，然后向它发送正确的视图，但是我不知道怎么做根urls.pyP<page_type>[a-zA-Z0-9-]+)/$', include('portf

浏览 2提问于2010-11-23得票数 0

3回答

需要PHP Regex帮助

、

我一整天都在编写这个简单的脚本，试图找出答案。我是新手，所以请记住这一点。最重要的是，我已经尝试了一切，尽我所能让它发挥作用。我正在尝试(学习，请不要指向API)通过cURL或file_get_contents从雅虎站点资源管理器下载一个TSV文件(这两种工作都是在处理不同的事情)，然后使用regex只获得要显示的URL列。因此，URL应该是： preg_match_all('((http(s?):

浏览 5提问于2011-05-18得票数 1

回答已采纳

2回答

正则表达式与Url字符串匹配

我需要一些使用正则表达式的帮助。我已经尝试了以下正则表达式，但不能很好地掌握它，因为它返回所有匹配。以下是urls的示例。第一

浏览 2提问于2014-03-24得票数 0

3回答

网址的PHP preg_match部分

、

我正在尝试用PHP创建一个url路由器，它的工作方式类似于django的。/post/5/我有一组正则表达式： "(^[/]$)" => "home.indexP<post_id>\d+)

浏览 0提问于2010-11-18得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python -正则表达式匹配页面源代码中的urls

相关·内容

Python -正则表达式匹配页面源代码中的urls

使用已经打开的safari选项卡的python从safari保存网页源？

下列按钮在现场不工作

如何分析地址？

使用Python和Selenium为Bet365现场直播匹配数据刮取创建url

Google分析设备类型聚合在与正则表达式匹配的多个页面上

与url匹配的pcre(php)正则表达式

为什么在“$”之后包含'/‘的URL返回一个未找到的页面错误(404)

ruby正则表达式使用最后一个匹配来分隔字符串，但应该首先使用

如何使用python存储从URL提取的标题？

Python urllib2响应404错误，但url可以打开

匹配不包含特定单词的url。

php preg_match()正则表达式

无法绘制页面。姜戈

使用正则表达式查找字符串中某个模式的所有匹配项

匹配没有查询字符串的Url路径

传递变量的Django urls.py问题

需要PHP Regex帮助

正则表达式与Url字符串匹配

网址的PHP preg_match部分

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐