腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
被
网站
屏蔽
的
抓取
、
、
(或者甚至是我可以获取索引
的
另一个页面) from bs4 import BeautifulSoupurl = "https://www.nasdaq.com
浏览 37
提问于2021-07-02
得票数 0
回答已采纳
1
回答
如何人工创建ConnectionRefusedError?
、
、
、
、
我想在Scrapy中调试ConnectionRefusedError处理。如果不能模拟错误,我就不能进行调试。如何模拟ConnectionRefusedError?
浏览 11
提问于2020-05-27
得票数 0
1
回答
为什么scrapy在特定
的
站点上不能工作?
、
、
、
我可以通过浏览器访问这个站点,也可以通过python请求使用相同
的
头文件连接到该站点。
浏览 20
提问于2020-11-23
得票数 0
1
回答
网站
阻止来自linux ubuntu服务器
的
请求。
、
、
、
我是一名具有零开发操作经验
的
Java工程师。最近,我第一次使用linux服务器,并在我
的
selenium项目中使用了docker,并面临这样
的
问题:此外,我只在Linux机器中被阻塞,所有东西都在本地dev env中工作,具有相同
的
docker映像,所以我认为它是“服务器故障”。 有什么想法吗?我
的
Lin
浏览 0
提问于2022-01-31
得票数 1
7
回答
动态更改IP地址?
、
、
、
、
考虑这样
的
情况,我想经常
抓取
网站
,但我
的
IP地址在一天/限制后
被
屏蔽
了。 那么,如何动态更改我
的
IP地址或任何其他想法?
浏览 2
提问于2015-03-04
得票数 59
1
回答
无法在Google上索引我
的
WordPress站点(Bing,Yahoo )
、
、
我试图使我
的
WordPress
网站
出现在谷歌,但没有任何运气。我已经签署并验证了
网站
管理员工具,在那里提交一个站点地图,检查robot.txt和.htaccess文件,检查没有索引,没有跟踪,也没有检查在WordPress阅读设置
的
劝阻搜索引擎。有一些爬行统计数据,但是站点:www.example.co.uk给出0
的
结果,site:example.co.uk只给出cPanel子域(?)。 必应和雅虎从一开始就对页面进行了索引。还有其他方法可以检查这是来自WordPress安装或主机端
的
错
浏览 0
提问于2016-03-16
得票数 0
2
回答
404:有没有办法避免在使用scrapy进行
抓取
时
被
网站
屏蔽
?
、
、
、
我试着使用Scrapy来
抓取
一些
网站
上大约70k个项目。但每次它
抓取
了大约200个项目后,其余
的
项目都会弹出错误:我相信这是因为我
的
爬虫
被
网站
屏蔽
了,我试着使用随机用户代理建议
浏览 5
提问于2016-02-03
得票数 0
1
回答
使用R配置随机代理以进行
抓取
、
、
、
我
抓取
了一个授权
抓取
机器人规则
的
网站
,但有时我会被
屏蔽
。所以我编辑了环境文件:在这个列表中,我插入了一个随机选择
的
代理列表: proxies_list <- c("128.199.109.241download.file(url_proxy, d
浏览 1
提问于2018-09-05
得票数 1
1
回答
如何在booking.com上使用scrapy而不被阻止?
、
、
、
我正在尝试用python插件scrapy从booking.com上
抓取
酒店评论。这是我
的
蜘蛛: class FeedbacktestSpider
浏览 12
提问于2021-03-07
得票数 1
1
回答
Scrapy和python: DNS查找失败:主机名查找没有结果-代理问题?
、
、
、
我正在尝试使用Scrapy和Python从我公司
的
IT和网络中
抓取
一些页面。我从这里
的
开始使用scrapy教程。当我尝试与教程页面上
的
代码相同
的
代码时,我得到错误:import scrapy class QuotesSpider(scra
浏览 36
提问于2018-01-24
得票数 1
1
回答
403发出get请求时
的
响应
、
、
在aws EC2服务器中使用python3向此
网站
()发出get请求时,我收到了403响应。但我在本地系统中使用相同
的
代码获得了成功响应。import requests<Response [403]> 在我
的
本地系统中
浏览 3
提问于2019-08-30
得票数 0
1
回答
Python Web
抓取
: urllib.request.urlopen挂起
、
、
、
我正在尝试使用下面的代码
抓取
一个
网站
。 然而,该函数永远不会返回(我怀疑是因为机器人在
网站
上
被
屏蔽
了)。有什么解决方法吗?
浏览 0
提问于2020-05-25
得票数 1
1
回答
使用请求和selenium在python中
抓取
网站
时出现错误403
、
、
、
我正在尝试
抓取
一个
网站
"https://coinatmradar.com/“。我正在使用请求、漂亮
的
汤和selenium (在需要
的
地方)来
抓取
数据。但过了一段时间,我
的
ip
被
网站
屏蔽
了,因为它正在使用cloudflare保护。response=requests.get(country_url, headers=headers) soup=BeautifulSoup(response.conte
浏览 79
提问于2021-07-05
得票数 1
回答已采纳
1
回答
正在读取robots.txt文件?
、
、
我正在尝试网络
抓取
一个
网站
,他们
的
robots.txt文件是这样写
的
:User-agent: * DisallowDisallow: /huur/*,*Disallow: /recreatie/*,*这是否意味着我不能
抓取
任何
浏览 1
提问于2019-11-03
得票数 1
1
回答
当我想
抓取
一个
网站
时
被
屏蔽
了
、
、
、
我正在尝试
抓取
一个
网站
,但我有403禁止
的
问题(这意味着他们阻止了我),我该如何解决这个问题?
浏览 0
提问于2019-06-16
得票数 0
2
回答
Robots.txt文件中阻塞UTM参数对Google购物
的
影响
、
、
、
、
我正在优化
网站
的
爬行体验,因为很大一部分
网站
没有
被
抓取
。我
的
问题;如果会的话,是否还有其他替代办法
浏览 0
提问于2020-03-04
得票数 2
1
回答
UrlFetch,无响应
我正在尝试使用google-apps-script中
的
UrlFetchApp.fetch获取网址。这是我
的
代码: var response = UrlFetchApp.fetch("https://www.fastlane.co.il/Mobile.aspx{muteHttpExceptions:true});} 我已经在代码
的
每一行上设置了一个断点如果我将U
浏览 13
提问于2017-12-18
得票数 0
2
回答
如何众包我
的
网页
抓取
、
、
、
我
的
web应用程序需要从指定
的
用户URL下载内容。目前这个请求通过我
的
服务器,这是低效
的
,可能会使我
的
服务器IP
被
阻塞。 有没有办法让用户直接下载URL内容?
浏览 7
提问于2009-10-24
得票数 3
1
回答
如何在获取到node和puppeteer
的
页面响应后,发现某个脚本函数... </ <script> >是否存在?
、
、
、
、
我正在
抓取
一些
网站
,检查它们是否
被
屏蔽
,所以我比较了不同
的
反应。我得出
的
结论是,一些脚本在脚本标记中有一个特定
的
函数,我不知道如何捕捉到这一点。我尝试了几种解析响应
的
方法,但都做不到……提前感谢!!下面是脚本
的
一部分(在正文中): <script> function ShowPopupRegistration(reason) { fancyAlert(...........
浏览 15
提问于2020-07-23
得票数 0
1
回答
Web
抓取
HTML中
的
pdf文件
、
、
、
我使用
的
是R,我只能从HTML中提取文本。下面是我要销毁
的
网站
的
例子。 问候
浏览 1
提问于2017-10-02
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
24 小时抓取百万次,Anthropic AI 公司被指过度抓取网站数据
如何让网站的图片快速被百度图片抓取?
抓取整个网站-免费抓取整个网站数据信息软件
什么是网站数据抓取
网站抓取引子-获得网页中的表格
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券