首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

python+selenium+requests爬取我的博客粉丝的名称

一、爬取目标 1.本次代码是在python2上运行通过的,python3不保证,其它python模块 - selenium 2.53.6 +firefox 44 - BeautifulSoup - requests...二、selenium获取cookies 1.大前提:先手工操作浏览器,登录我的博客,并记住密码 (保证关掉浏览器后,下次打开浏览器访问我的博客时候是登录状态) 2.selenium默认启动浏览器是一个空的配置...cookies = driver.get_cookies() # 获取浏览器cookies print(cookies) driver.quit() return...(int(num[0])/45)+1 print u"总共分页数:%s"%str(ye) return ye except Exception as msg:...print u"获取粉丝页数报错了,默认返回数量1 :%s"%str(msg) return 1 def save_name(nub): '''抓取页面的粉丝名称'''

92040

python 高度鲁棒性爬虫的超时控制问题

目录: 一:基础try&except异常处理 二:普通请求函数的超时处理 三:selenium+chrome  | phantomjs 的超时处理 四:自定义函数的死锁or超时处理 五:自定义线程的死锁...or超时处理 六:自重启的程序设计 一:基础try&except异常处理 try&except的语句作用不仅仅是要让其捕获异常更重要的是让其忽略异常,因为爬虫中的绝大多数异常可能重新请求就不存在,因此,...try:     pass     #可能出错的语句 except Exception,e:     pass     #保留错误的url,留待下次重跑     print e finally:     ...+chrome  | phantomjs 的超时处理 2.2.1:selenium+chrome的超时设置 官网原文:http://selenium-python.readthedocs.io/waits.html...高度鲁棒性爬虫的超时控制问题 Related posts: selenium自动登录挂stackoverflow的金牌 python 爬虫资源包汇总 python 进程超时控制 防止phantomjs

1.2K30
领券