前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python:处理字符串的另一大神器——正则表达式,利用正则提取豆瓣电影排行榜信息

python:处理字符串的另一大神器——正则表达式,利用正则提取豆瓣电影排行榜信息

作者头像
戈贝尔光和热
发布2018-12-27 15:15:53
9470
发布2018-12-27 15:15:53
举报
文章被收录于专栏:HUBU生信

在之前的文章中,我们已经学会了使用bs4库中的BeautifulSoup,用于获取网页源代码中的标签。 今天来一起学习一下正则表达式。

在python中需要使用正则表达式的话,需要先声明:

代码语言:javascript
复制
import  re

首先正则表达式中,有许多的元字符,所谓元字符也就是含有特殊意义的字符,比如在正则中,“.”表示匹配除了换行符(\n)以外的任意字符。

下面是从百度找的一张表,供大家参考:

其实在实际过程中,我们并不需要全部死记硬背下来所有的内容,只需要留个大致印象,在实践中,慢慢掌握。

下面我们进行一个实战:用正则表达式的方法抓取豆瓣电影排行榜中的电影名称和豆瓣评分

第一步,分析网页

打开豆瓣排行榜,F12分析网页元素

可以很容易的分析出,标题所在的标签是:

<span class="title">肖申克的救赎</span>

评分所在的标签是:

<span class="rating_num" property="v:average">9.0</span>

首先,调用re库和requests库

import re import requests 在这里我简单的介绍一下一些概念,在正则中,“.*”表示贪婪匹配,也就是说,会尽可能多的匹配字符串,并且在遇到换行符的时候结束匹配。 实验如下:

代码语言:javascript
复制
In [1]: import  requests

In [2]: import  re

In [3]: r=requests.get('https://movie.douban.com/top250?start=0&filter=')

In [4]: r.encoding
Out[4]: 'utf-8'

In [5]: r=r.text

In [32]: p=re.compile('.*')

In [33]: p.findall(r)

可以看见输出内容为:

compile()方法是构建一个pattern对象,用于正则。

findall()方法是用来返回所有匹配结果。

而“.?”则表示非贪婪匹配,也就是说尽可能少的进行匹配。用上述同样的方法,可以发现“.?”根本匹配不到任何数据,返回的是一个空列表。

同理,抓取标题和评分:

代码语言:javascript
复制
In [34]: p=re.compile('<span.*?class=title">(.*?)</span>')

In [35]: p.findall(r)
Out[35]: []

In [38]: p=re.compile('<span.*?class="title">(.*?)</span>|<span class="rating_num" property="v:average">(.*?)</span>')

In [39]: p.findall(r)

结果如下:

通过上述实验,是不是发现,正则表达式比beautifulsoup简单的多?

只需要两行代码就将信息提取出来了,真的很强大!

全文结束,欢迎在评论区讨论~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018/11/08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档