科技简讯
微信公众平台于2月10日发布公告称,即日起将正式调整微信公众号的注册数量,每个人的注册数量上限由原来的 5 个调整为 2 个,而组织类的上限则从原来的 50 个调整为 5 个。不过他们也同时规定,如果确实有多个账号需求的,相应个人和组织可以发起申请流程,经过微信公众平台初审,并报互联网信息内容主管部门审批同意后,可以适当放宽注册数量限制。
作者简介
走在Data mining 路上的一名探索者;
某著名男女失衡断水断电大学汪;
Corozon共勉;
本篇文章学习Python的正则表达式;
正文
正则表达式(re-Regular expression operations)模块在线文档:https://docs.python.org/3/library/re.html
我对很多技术都是本着用着先的态度,有问题再去查资料,不用说万事俱备。
我希望这篇能带来“用着先”的作用。
理解正则表达式:
所谓正则表达式,就是对字符串操作的一种逻辑公式。正则也可以理解为“如果正确则如何...”。它用事先定义好的字符,组合成符合你目前工作需求的特定规则字符串。然后你就可以用这个规则字符串就行对文本的过滤,注意这里的过滤可以是提取需要的,也可以是除去不需要的。
大致流程:
观察目标文本,定下工作目的。
根据定义好的特定字符(下表),对照文本写出正则表达式
对文本进行筛选(一系列方法)
主要方法:
小应用:
在爬取nba13年赛季球队排行时,出现了表格数据在源代码中是注释的情况,没办法运用bs4进行标签层的爬取。所以只能先用正则表达式将注释爬出来。
领取专属 10元无门槛券
私享最新 技术干货