腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
在
网页
上
显示
加载
、
、
我正在尝试抓取,但是页面
在
加载
时被卡住了。我甚至把等待时间改成了7秒。但问题依然存在。有什么解决方案吗?
浏览 2
提问于2018-02-20
得票数 0
1
回答
从
网页
捕获动态请求内容
、
、
我正在尝试从
网页
中捕获动态内容。
加载
内容后,数据动态
显示
在
网页
上
。
在
一个
网页
上
,控制台中的响应是json格式的,第二个是html。我尝试过使用scrappy和urllib3,但是除了从
网页
本身获取静态数据之外,我没能捕捉到其他东西。 下面是我尝试
在
scrappy中使用的内容。class spider(
scrapy
.Spider):
浏览 1
提问于2020-05-25
得票数 1
2
回答
使用
scrapy
抓取特定的h1标记
、
、
我是第一次使用
scrapy
,我一直
在
尝试从意大利政府https://www.governo.it/it/cscovid19/report-vaccini/的网站上抓取接种疫苗的数量(中间的大数字)。我想我已经能够正确地设置
scrapy
了,当我
在
scrapy
shell中写"view(response)“时,我正确地得到了整个网站,但是不管我用xpath写了什么,我都不能得到这个数字。该数字
在
h1标记内: <h1
浏览 34
提问于2021-03-23
得票数 0
回答已采纳
1
回答
Scrapy
:从span中提取没有类或id的文本
、
、
、
、
我有以下html结构:我想从突出
显示
的span (使用
Scrapy
)中提取文本(“Business”-Fokus im Master-Kur),但是我很难到达它,因为它不包含任何特定的类或id
浏览 6
提问于2021-03-16
得票数 1
回答已采纳
1
回答
python
scrapy
从产品页面获取urls列表
、
我正在尝试抓取这个页面:def start_requests(self): url=self.start_url
浏览 2
提问于2020-12-04
得票数 2
1
回答
使用
Scrapy
1.6.0 got调试:爬行(200)
、
我刚开始刮擦,试着
在
不同的页面上爬行。 name = "chrome" chromeOptions = webdriver.ChromeOptionsview=1' for url in urls:
浏览 1
提问于2019-11-15
得票数 0
回答已采纳
1
回答
运行蜘蛛时如何在日志中写入日志?
、
、
、
在运行刮擦蜘蛛时,我看到日志消息有" DEBUG:“,其中包含1.DEBUG: (200) (GET ) (引用: None) 2.调试:从(200 )中刮擦
浏览 3
提问于2015-06-11
得票数 0
回答已采纳
1
回答
用刮擦法求解reCAPTCHA
、
、
、
我正在使用刮伤来爬行一些
网页
。但在某种程度上,谷歌reCAPTCHA阻挡了前进的道路。如果浏览器(
在
本例中为
scrapy
)没有运行的javascript,Google reCAPTCHA甚至不会
加载
。它只是要求您启用您的javascript来查看和解决reCAPTCHA。因此,我认为,如果我能够找到一种方法
在
发生时向用户
显示
这个reCAPTCHA,用户可以手动解决这个问题,并且
scrapy
继续爬行,但是我无法用一个真正的javascript来中断这个进程。在这一点<em
浏览 0
提问于2019-03-06
得票数 4
1
回答
等待带有
scrapy
的
加载
页面
、
我正在尝试使用FormRequest获取
网页
内容以绕过表单。但问题是,在这个表单之后,有一个页面与
加载
栏,只有在这个栏是满后,网站
显示
我想要的内容。
scrapy
脚本
在
响应对象中给出了
加载
页面,而不是具有我想要的结果的最终
网页
。我能做些什么来解决这个问题?我认为,也许我需要设置一个计时器,让爬虫等待
加载
的页面完成他的工作。
浏览 1
提问于2015-07-10
得票数 0
1
回答
刮除:使用document.write填充目标项的刮取网站
、
、
如何在
Scrapy
中获得网站的完整浏览器html呈现版本
浏览 2
提问于2014-03-31
得票数 0
回答已采纳
2
回答
Scrapy
无法在
网页
中找到特定的div。
、
、
我使用
Scrapy
加载
这个
网页
:想要找到:然而如果我在这个
网页
的铬检查中使用find,我可以找到3的"//div[@class='inline']"。这是个虫子吗?
浏览 1
提问于2016-03-06
得票数 1
回答已采纳
2
回答
使用
Scrapy
登录站点的表单身份验证/登录
、
、
、
、
我是
Scrapy
的初学者。我试图登录一个网站,让我能够做刮刮。但我被困住了。下面是我蜘蛛的代码import
scrapy
from
scrapy
.selector import HtmlXPathSelectorfrom
scrapy
.log import log name = "login" allow
浏览 1
提问于2015-05-07
得票数 0
1
回答
Scrapy
允许我们使用JavaScript脚本从服务器抓取数据吗?
、
、
在
我的大学里,我们通过输入名字和学生ID来检索我们的学期成绩。我现在正在为项目学习网络抓取,刮取或BeatifulSoup是否为一次检索100个结果提供了一个解决方案?
浏览 9
提问于2022-08-10
得票数 -1
1
回答
如何在google的网络商店搜索结果
上
抓取动态生成的数据
、
、
、
、
我想抓取一个
网页
,它
显示
了
在
谷歌的网络商店的搜索结果,该链接是静态的,为特定的关键字。问题是我无法呈现由Javascript代码生成的动态数据,以响应服务器。我尝试使用
Scrapy
和
Scrapy
-Splash呈现所需的页面,但仍然得到相同的响应。我使用Docker
在
端口8050
上
运行scrapinghub/splash容器的一个实例。我甚至访问了
网页
http://localhost:805
浏览 12
提问于2019-07-07
得票数 0
1
回答
动态内容抓取
、
、
我们可以使用
Scrapy
从由Javascript
加载
的
网页
中获取内容吗?我正在尝试从页面中抓取使用示例,但是由于它们是使用Javascript作为JSON对象
加载
的,所以我无法使用
Scrapy
获取它们。 你能提出什么是处理这些问题的最佳方法吗?
浏览 5
提问于2016-11-22
得票数 0
回答已采纳
1
回答
不要在
scrapy
中
加载
图像、css或主题以及脚本
、
、
、
、
我需要防止从
网页
加载
图像,css文件,主题和脚本。
在
使用
scrapy
的基本抓取中 有什么方法可以从setting.py或其他网站上阻止他们吗?导入
scrapy
class MySpyder(
scrapy
.Spider): start_urls = [l.strip() for l in open
浏览 14
提问于2020-08-14
得票数 0
回答已采纳
1
回答
使用
scrapy
splash对抓取速度有显著影响吗?
、
、
、
、
到目前为止,我一直
在
使用
scrapy
和编写自定义类来处理使用ajax的网站。但是,如果我使用
scrapy
-splash,据我所知,它会在javascript之后抓取呈现的html,爬虫的速度会受到严重影响吗?使用
scrapy
抓取一个普通的html页面所需的时间与使用
scrapy
-splash抓取javascript渲染的html所需的时间进行了怎样的比较?最后,
scrapy
splash和Selenium的比较如何?
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
1
回答
返回HTML响应前不要解析JS
、
、
在
由
Scrapy
和Splash服务器组成的爬行器中,我在这个站点
上
遇到了问题:</html> 如您所见,Splash
在
返回
浏览 7
提问于2021-08-02
得票数 0
回答已采纳
1
回答
python打开get浏览器并获取html
、
现在让我开始说,我知道bs4,
scrapy
,selenium和更多可以做到这一点,但这不是我想要的,原因有很多。我想做的是打开一个
网页
浏览器(chrome,即火狐),并从
网页
上
提取的
网页
加载
后,从
网页
浏览器从什么
网页
浏览器的网站。
浏览 1
提问于2018-04-26
得票数 2
1
回答
为什么
Scrapy
中的数据没有完全
加载
视图(响应)?
、
我正试着用
Scrapy
从Youtube
上
收集一些评论。但是,当我进入
scrapy
shell模式并使用view(response)打开它时,除了
加载
旋转器之外,我找不到任何注释。
scrapy
shell https://www.youtube.com/watch?v=kkl7-NzqxWo
在
注释部分
显示
无限旋转器。我怎样才能同时
加载
评论以便我可以刮掉它们呢?
浏览 1
提问于2018-12-01
得票数 0
回答已采纳
点击加载更多
相关
资讯
谷歌研究显示:网页加载速度每提高0.1秒 可刺激消费增长9.2%
电脑上qq直播间一直显示页面加载失败
4 个提高你在 Thunderbird 上隐私的加载项
Hilton 网页上终于可以显示剩余几个FN以及什么时候过期了
Python爬取的数据和页面显示的不一致的原因及解决方法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券