简介
上一篇文章(爬虫实战 | 掘金文章单页爬虫)中为了找到文章真正的请求地址需要去查看网页请求并对参数进行测试,那么有没有什么方法可以直接获取到js处理之后的网页呢?
另外,通过右键检查网页发现网页中的内容并没有上一篇文章中提到的问题,于是猜想,能不能有一种方法模拟浏览器的行为进行js代码的处理,并获取处理完之后的页面。当然是有的,这就是我们今天的主角Selenium
工欲善其事必先利其器
Selenium
Selenium是一个浏览器自动化测试工具,Selenium Python bindings 使用非常简洁方便的API让你去使用像Firefox, IE, Chrome, Remote等等 这样的Selenium WebDrivers(Selenium web驱动器).通过下面的方式安装
下载浏览器驱动
安装Firefox和插件
插件 Katalon Recorder,一款类似按键精灵的工具,可以记录你对浏览器的操作,还能够导出代码。
使用方法
首先打开火狐的Katalon Recorder插件
1.点击New新建一个,然后点击Record开始录制,之后就可以返回浏览器操作了
2.录制完毕之后点击stop,之后导出代码,这里是python2的代码,但我们不全用,我们只选择交互的部分。而且本文中不使用这个插件,这个插件可以方便的模拟表单提交和模拟登陆操作,这次还是简单的网页原文获取。
开始爬取
selenium的功能远不止这些,按需使用,我只是简单的用了一下,是不是比自己找请求方便多了~~~
欢迎关注我的孙女叫小芳的微信公众号
领取专属 10元无门槛券
私享最新 技术干货