使用re库,利用正则表达式,可以说掌握了一个通用的工具,大部分内容都能爬取,但是,每次写正则特征时,总会觉得很繁琐,哪天网页布局变了,需要调整特征,可能对于复杂的特征,较难调整,几乎相当于重写了,遇到这种情况,我们应该使用Xpath
XPath简述
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。
表示法
C节点为B节点的子节点(),B节点为A节点的子节点(),A为XML文档的根节点()。
B节点下的第一个子节点(),表示任意名称节点,B节点在A节点任意层()下,同时A节点还必须是当前节点的子节点(,前边没有)
轴描述语法
选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
实例
[更多XPath教程参考][http://www.w3school.com.cn/xpath/index.ASP]
领取专属 10元无门槛券
私享最新 技术干货