动态网页加载数据,我们之前用的方法是用JSON获取网页的原始数据,过程比较繁琐,这节课我们利用selenim自动化抓取网页的数据,接下来为大家一一阐述爬取的过程。
1.爬取网页数据的解题思路
首先我们先回忆一下我们爬取网页的主要步骤:先获取网页完整的源码数据--然后利用xpath数据解析--获取想要的数据
2.获取网页源码数据
这次我们操作的网页为http://scxk.nmpa.gov.cn:81/xk/,该网页为动态加载数据,用之前requests模块获取数据时,不能直接通过get请求获取真正的源码数据,我们当时采用的是Ajax请求间接拿到了该页面的数据,这次我们用不一样的selenim模块获取数据
第一步,导入模块自动读取发起数据请求
我们利用苹果电脑自带的Safari浏览器发起请求,得到实例化的对象driver,然后再发起get请求
第二步,获取源码数据
selenim模块获取网页源码的方法为,通过page_source方法,不同于requests方法是通过text,这样我们就拿到了该网页的源码数据
第三步,解析数据
我们主要是通过源码获取该页面的企业名称,如下图,解析数据与requests请求一样采用了xpath解析
第四步,关闭自动化
3.获取网页源码数据
最终效果图
领取专属 10元无门槛券
私享最新 技术干货