在之前的文章中,我们已经学会了使用bs4库中的BeautifulSoup,用于获取网页源代码中的标签。 今天来一起学习一下正则表达式。
在python中需要使用正则表达式的话,需要先声明:
import re
首先正则表达式中,有许多的元字符,所谓元字符也就是含有特殊意义的字符,比如在正则中,“.”表示匹配除了换行符(\n)以外的任意字符。
下面是从百度找的一张表,供大家参考:
其实在实际过程中,我们并不需要全部死记硬背下来所有的内容,只需要留个大致印象,在实践中,慢慢掌握。
下面我们进行一个实战:用正则表达式的方法抓取豆瓣电影排行榜中的电影名称和豆瓣评分
第一步,分析网页
打开豆瓣排行榜,F12分析网页元素
可以很容易的分析出,标题所在的标签是:
<span class="title">肖申克的救赎</span>
评分所在的标签是:
<span class="rating_num" property="v:average">9.0</span>
首先,调用re库和requests库
import re import requests 在这里我简单的介绍一下一些概念,在正则中,“.*”表示贪婪匹配,也就是说,会尽可能多的匹配字符串,并且在遇到换行符的时候结束匹配。 实验如下:
In [1]: import requests
In [2]: import re
In [3]: r=requests.get('https://movie.douban.com/top250?start=0&filter=')
In [4]: r.encoding
Out[4]: 'utf-8'
In [5]: r=r.text
In [32]: p=re.compile('.*')
In [33]: p.findall(r)
可以看见输出内容为:
compile()方法是构建一个pattern对象,用于正则。
findall()方法是用来返回所有匹配结果。
而“.?”则表示非贪婪匹配,也就是说尽可能少的进行匹配。用上述同样的方法,可以发现“.?”根本匹配不到任何数据,返回的是一个空列表。
同理,抓取标题和评分:
In [34]: p=re.compile('<span.*?class=title">(.*?)</span>')
In [35]: p.findall(r)
Out[35]: []
In [38]: p=re.compile('<span.*?class="title">(.*?)</span>|<span class="rating_num" property="v:average">(.*?)</span>')
In [39]: p.findall(r)
结果如下:
通过上述实验,是不是发现,正则表达式比beautifulsoup简单的多?
只需要两行代码就将信息提取出来了,真的很强大!
全文结束,欢迎在评论区讨论~