本博客会以艺龙旅游网为对象,进行selenium的学习
由于区区在下在学校参加了一个名为创新创业工作室的地方,所以今天老师召集我们给我们开了个会,让我们对他们的网站做补充,缺少资料。(因为他不会做爬虫对某种信息进行实时性爬取,我怀疑网站也是别人给他做的)

所以有些体力活需要我们去做:手动将数据从某网站下载,然后通过某网站对坐标进行处理,然后进入网站后台将数据存储(手动一个一个打)。

但是我通过对网站进行分析,发现如果单纯使用requests话,就只能爬取一页的数据,不能翻页(因为翻页url是不变的),所以我就想到了selenium,但是我又不会用,那就一起来学习一下吧。

确定目标:http://www.elong.com/ 目的:爬取艺龙网中南阳市唐河县的酒店信息,包括:名字,电话,标间价格,地址,介绍,图片

Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safar等浏览器(需要下载驱动),之前是用来做测试网站的,后来发现也可以用来爬取数据(估计开发者都没想到他开发的selenium被别人广泛适用于爬虫领域——笑)。
from selenium import webdriver
import time
# 导入时间包和selenium包
huohu = webdriver.Chrome()
# 创建一个chome的selenium对象
huohu.get("http://www.elong.com/")
# 打开网站
huohu.quit()
# 退出写好后,运行 好,报错了,对,报错了,可能你们不会报错,反正我报错了
报错信息是:selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’ executable needs to be in PATH.
意思是,你需要吧chromdriver放到路径,我照着做了,可是呢,还是这个报错!

这是什么情况??明明我是按照教程来的啊
着急的我去群里请求大佬,大佬们直接无视我——::>_<::
然后又去找它——>CSDN,左翻翻,右找找,终于找到了解决方案:
将chromdriver放在python解释器的位置,我照着做了之后,就成功了。。。
好家伙,上面教程不是说随便放的吗?…
哎,人与人之间最基本的信任都没有了

from selenium import webdriver
# 导包
driver = webdriver.Chrome()
# 创建一个浏览器对象
driver.get("https://m.elong.com/")
# 访问艺龙网
driver.quit()
# 关闭浏览器,也可以不关闭,但是最好关闭,养成一个打开后不忘记关闭的好习惯然后我们就会发现,浏览器界面一闪而过(为什么?因为页面渲染完成后,就直接退出了),那么如何才能让我们能够观察到呢?有请我们的time模块,让它睡会儿,就能观察到了 这样改
from selenium import webdriver
import time
# 导包
driver = webdriver.Chrome()
driver.get("https://m.elong.com/")
time.sleep(5)
# 页面渲染完成后让它睡5s,这样就能观察到了
driver.quit()OK,看到,代码替我们打开了这个网址,并且展示了5s后关闭了
好了,相信大家已经学会如何使用筷子了,那么让我们去动用我们的筷子去把这个网站抓下来吧——笑,玩个老梗 今天的笔记就到这里了(主要是不想写了,一天当然不可能只学会点这玩意),拜拜

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/100266.html原文链接: