前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >selenium设置user-agent以及对于是否是浏览器内核进行反爬

selenium设置user-agent以及对于是否是浏览器内核进行反爬

作者头像
小小咸鱼YwY
发布于 2020-06-19 07:25:38
发布于 2020-06-19 07:25:38
4K00
代码可运行
举报
文章被收录于专栏:python-爬虫python-爬虫
运行总次数:0
代码可运行

(Session info: chrome=75.0.3770.90),不同版本方法可能会有些不同

推荐查资料网站必应可以避开一堆广告

一.user-agent设置

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from selenium import webdriver
# 进入浏览器设置
options = webdriver.ChromeOptions()
# 更换头部
options.add_argument('user-agent=ywy')

browser = webdriver.Chrome(options=options)
url = "https://httpbin.org/get?"

browser.get(url)
print(browser.page_source)
browser.close()

二.浏览器内核

只要你执行navigator.webdriver返回值是true就是浏览器内核访问

如果不是返回值是undefined

selenium为了解决这个需进行js 注入

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from selenium import webdriver
browser = webdriver.Chrome()
script='''Object.defineProperties(navigator, {webdriver:{get:()=>undefined}})'''
browser.execute_script(script)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-11-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
selenium设置chrome和phantomjs的请求头信息
出于反爬虫也好-跳转到手机端页面也好都需要设置请求头,那么如何进行呢? 目录 一:selenium设置phantomjs请求头: 二:selenium设置chrome请求头: 三:selenium设置
十四君
2019/11/29
1.8K0
selenium设置chrome和phantomjs的请求头信息
Python Selenium 隐藏浏览器指纹特征
如果你用过 Selenium 来爬取网页,可能会发现,很多网站会识别出你是在用爬虫,直接给你弹出验证码,甚至直接封你的 IP。为什么会这样?因为你的浏览器“长得不像正常用户”!
繁依Fanyi
2025/01/31
2450
selenium设置proxy、headers(phantomjs、Chrome、Firefox)
文章参考:https://www.zhihu.com/question/35547395
周小董
2019/03/25
4.7K0
selenium设置Chrome
关闭图片 from selenium import webdriver options = webdriver.ChromeOptions() prefs = { 'profile.default_content_setting_values': { 'images': 2 } } options.add_experimental_option('prefs', prefs) browser = webdriver.Chrome(chrome_options=options
机器学习和大数据挖掘
2019/07/02
1.4K0
Selenium 使用问题记录
有些爬虫需要携带sessionStorage中的一个参数, 这个参数是存在浏览器中的, 使用requests获取不到, 只能使用selenium来获取
不止于python
2022/05/31
7830
常用selenium浏览器配置
selenium webdriver在get()方法会一直等待页面加载完毕才会执行后面的,可如果加载时间太长会导致后续操作无法进行。有时我们要的信息已经加载出来了,再继续加载网页就没有意义了。 可以通过set_page_load_time()方法来设定时间 然后捕获TimeoutException异常,并通过执行Javascript来停止页面加载 window.stop()
十四君
2019/11/23
2.6K0
常用selenium浏览器配置
Python爬虫——Selenium
安装chromium 官方下载地址是http://chromedriver.chromium.org/downloads,注意需要和本地安装的Chrome浏览器版本相匹配。如当前ChoreDriver2.42支持的Chrome版本是v68到v70
羊羽shine
2019/05/29
8900
无头浏览器Selenium的使用要点
无头浏览器是指可以在图形界面情况下运行的,可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务,模拟真实的浏览器操作和各种任务,例如登录、js解析、ajax动态生成、获取cookie等。
用户6172015
2021/07/06
2.8K0
如何隐藏Selenium特征实现自动化网页采集
Selenium是一个流行的自动化网页测试工具,可以通过模拟用户在Chrome浏览器中的操作来完成网站的测试。然而,有些网站会检测浏览器是否由Selenium驱动,如果是,就会返回错误的结果或拒绝访问。为了避免这种情况,我们需要隐藏Selenium的特征,让网站认为我们是正常的用户。
jackcode
2023/04/17
1.6K0
如何隐藏Selenium特征实现自动化网页采集
用自动化测试工具selenium来揭露骗局的真相selenium进行页面滚动关闭chrome浏览器自动加载图片使用headless模式运行chrome删除页面上元素爬取结果分析源码
前几天写了用爬虫来揭露约稿骗局的真相,但实际上对于动态加载的数据来说,用程序爬取比较困难,在这种情况下,可以使用selenium来模拟浏览器行为,达到同样目的。
大神带我来搬砖
2018/08/02
1.8K0
用自动化测试工具selenium来揭露骗局的真相selenium进行页面滚动关闭chrome浏览器自动加载图片使用headless模式运行chrome删除页面上元素爬取结果分析源码
Selenium及Headless Ch
一般的的静态HTML页面可以使用requests等库直接抓取,但还有一部分比较复杂的动态页面,这些页面的DOM是动态生成的,有些还需要用户与其点击互动,这些页面只能使用真实的浏览器引擎动态解析,Selenium和Chrome Headless可以很好的达到这种目的。
py3study
2020/01/19
1.1K0
Selenium自动化爬虫
Selenium 打开页面后,默认是在父级 Frame 里面操作,如果页面中还有子 Frame,Selenium 是不能获取到子 Frame 里面的节点的。这时就需要使用 switch_to.frame 方法来切换 Frame。
北山啦
2022/11/27
1.2K0
Selenium自动化爬虫
一文搞懂浏览器自动化测试框架selenium!
1、selenium是什么? Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Per
石晓文
2018/04/11
1.3K0
Selenium使用代理IP&无头模式访问网站
很多防爬机制会自动检测ip访问的频率,超过设定的次数,就会被封,这个时候就需要使用代理ip来解决这个问题了
py3study
2020/01/07
3.5K0
Selenium入门
查看chrom浏览器的版本,需要下载其对应版本的chrome webdriver.
测试加
2022/03/24
2.8K0
Selenium入门
Selenium 简单介绍、安装、启动
Selenium简单介绍 https://selenium-python.readthedocs.io/ https://python-selenium-zh.readthedocs.io/zh_CN/latest/ 什么是selenium 通过浏览器驱动来自动化操纵浏览器的工具 selenium -> 传输指令 -> webdriver -> 转换指令 -> 浏览器 webdriver的出现是为了兼容各语言各版本, 使java或者python都可以通过同一个webdriver达到操纵浏览器的目的. se
友儿
2022/10/05
3710
Python爬虫源码,Behance 作品图片及内容 selenium 采集爬虫
前面有分享过requests采集Behance 作品信息的爬虫,这篇带来另一个版本供参考,使用的是无头浏览器 selenium 采集,主要的不同方式是使用 selenium 驱动浏览器获取到页面源码,后面获取信息的话与前篇一致。
二爷
2023/09/15
3630
Python爬虫源码,Behance 作品图片及内容 selenium 采集爬虫
Selenium+python3
from selenium import webdriver from selenium.webdriver import ChromeOptions
用户2337871
2020/04/24
4050
selenium用法详解
selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。
顾翔
2019/12/11
9940
selenium用法详解
Python爬虫利器Selenium从入门到进阶
selenium是最广泛使用的开源Web UI自动化测试套件之一,它所支持的语言包括C++、Java、Perl、PHP、Python和Ruby,在数据抓取方面也是一把利器,能够解决大部分网页的反爬措施,当然它也并非是万能的,一个比较明显的一点就在于是它速度比较慢,如果每天数据采集的量并不是很高,倒是可以使用这个框架。
用户6888863
2021/12/10
1.7K0
Python爬虫利器Selenium从入门到进阶
相关推荐
selenium设置chrome和phantomjs的请求头信息
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验