首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

烦人的正则表达式(六)

运用正则表达式提取文本替换文本的应用场景非常多,如果不想多绕弯路,就需要多多了解一下正则表达式了。

我觉得前面学习了这么多正则表达式的规则,到现在语法应该掌握的差不多了,需要的是多多练习。

提取网页信息

一个网页总是包含许多标签,这些标签方便程序员把不同的内容归类,我们也可以根据这些规则写相应的正则表达式进行匹配提取。

先根据这规则编写正则表达式:

这语句应该很容易能看懂(不懂的应该把我前面写的系列文章再稍稍复习一下)。然后把这语句规则写入方法里。

我用python3演示一下:

好棒啊,能抓取到东西了,但仔细一看,怎么获取到满屏的代码...似乎抓到一个就行了。理论上获取到的第一个>就可以与前面闭合上了,但这里给匹配上了网页源代码中的最后一个>

怎么解决这种情况呢,匹配到一次就给返回。这里要介绍新知识了,像我们想要的匹配成功一次就返回的匹配模式称为非贪婪模式,而一直匹配到最后一个再停止的模式称为贪婪模式。

设置起来也很简单:

可能一眼很难看出来改了哪里,我只在*后面加了?,然后就能达到我想要的效果。

关于贪婪与非贪婪

这也是正则表达式中常用的点,但我之前忘记讲了,现在讲我也没多少精力(偷懒)。所以我引用网上的详细的教程(侵删):

https://blog.csdn.net/lxcnn/article/details/4756030

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181209G15B6900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券