腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Scrapy
下载所有
JS
文件?
、
我试图爬行一个网站,搜索所有的
JS
文件来下载它们。我刚接触
Scrapy
,我发现我可以使用CrawlSpider,但我似乎对LinkExtractors有一个问题,因为我的解析器没有
执行
。import
scrapy
from
scrapy
.linkextractors import LinkExtractor'example.com'] start_urls = ['
浏览 25
提问于2021-02-17
得票数 0
回答已采纳
2
回答
在
Scrapy
响应中
执行
内联JavaScript
、
、
、
、
我试图用
Scrapy
登录一个网站,但收到的响应是一个只包含内联JavaScript的超文本标记语言文档。
JS
重定向到我想要从中抓取数据的页面。但是
Scrapy
不
执行
JS
,因此不会路由到我想要的页面。'request_id': request_id, } yield
scrapy
.FormRequestcallback=self.print
浏览 72
提问于2017-06-22
得票数 3
2
回答
Scrapy
支持JavaScript进行网络爬行吗?
、
、
、
我听说
scrapy
不支持javascript。我想知道我是否可以使用
scrapy
抓取我们内部网站的链接,我们的内部网站有javascript,我相信当你点击一个链接时它就会生成,但我不是100%确定。我还能不能用
scrapy
的爬虫抓取每个链接?如果我不能,你能推荐另一个我可以使用的工具吗?支持javascripts和post身份验证登录(Https)。 谢谢!
浏览 2
提问于2013-07-16
得票数 0
2
回答
使用
Scrapy
Splash将响应存储为文件
、
、
、
、
import
scrapy
author =
scrapy
.Field= ["http://quotes.toscrape.com/
js
/"] for url in self.start_urls\tutorial\spi
浏览 5
提问于2020-10-14
得票数 4
回答已采纳
1
回答
Scrapy
:从脚本标记中提取数据
、
、
我是
Scrapy
的新手。出于工作目的,我正在尝试从'https://www.tysonprop.co.za/agents/‘中抓取内容。 特别是,我正在寻找的信息似乎是由脚本标记生成的。然而,
Scrapy
响应对象似乎获取了原始源代码。也就是说,我想要的数据显示为<%= branch.branch_name %>,而不是“泰森地产总公司”。 任何帮助都将不胜感激。agents-list right grid_6"> <
浏览 11
提问于2020-09-23
得票数 0
1
回答
Scrapy
不会选择嵌入元素
、
、
我正在使用
Scrapy
来实际了解网站中是否有任何flash内容。
浏览 2
提问于2013-02-24
得票数 1
2
回答
无法使用刮伤认证fandromeda
、
、
import
scrapy
from
scrapy
.http import Request, FormRequestfrom fandromeda.items import FandromedaItem class FandromedaC(CrawlSpider我注意到,在默认情况下,
scrapy
正在发出get请求而不是post。
scrapy</
浏览 4
提问于2016-12-01
得票数 0
回答已采纳
1
回答
使用
Scrapy
和Python抓取
JS
生成的内容
、
有一个网页是用
JS
:生成的默认情况下,
scrapy
只获取超文本标记语言,而不
执行
JS
。我怎样才能改变它?
浏览 14
提问于2018-01-16
得票数 0
回答已采纳
1
回答
在Python中
执行
Js
的Selenium的替代方案是什么?
、
、
、
我想在Python中
执行
JavaScript的函数,在此之前,我使用Selenium,但是Selenium对于大站点的抓取来说太慢了。我想知道selenium在
Scrapy
中
执行
js
的最佳替代方案是什么?
浏览 2
提问于2016-12-26
得票数 4
回答已采纳
2
回答
使用
scrapy
的项加载程序填充数据时,它在shell中工作,而在蜘蛛中不工作
、
items.py brand =
scrapy
.Field(l = ItemLoader(item=PetfoodItem(),response=response) l.add_xpath('brand', '//*[@id="
js
-breadcrumb"]/li[4]/a
浏览 0
提问于2018-10-09
得票数 2
回答已采纳
1
回答
为什么刮痕不发送正确的url?
、
、
、
、
parse: url = 'http://quotes.toscrape.com/
js
=0.8", "Accept-Language": "en"}, "html": 1, "png": 0, "url": "http://quotes.to
浏览 4
提问于2020-08-02
得票数 0
回答已采纳
1
回答
利用
Scrapy
制作蜘蛛
、
、
、
、
我试着用
Scrapy
建造一个爬虫。当我第一次访问服务器时,它会用下面的代码进行响应。我是Java脚本的初学者,但我认为它是一篇文章,因为有了form method="POST"。表单操作是如何触发的?
浏览 0
提问于2015-09-28
得票数 0
回答已采纳
3
回答
如何发送在
Scrapy
中启用的JavaScript和Cookie?
、
、
、
我正在刮一个网站使用
Scrapy
,这需要烹饪和java-script才能启用。我不认为我必须实际处理javascript。我所要做的就是假装javascript已经启用。CookieCOOKIES_DEBUG = TrueDOWNLOADER_MIDDLEWARES = { '
浏览 0
提问于2013-05-06
得票数 9
1
回答
创建Python项目生成:文件"<stdin>",第1行错误
、
Anaconda Navigator安装刮伤包 File "<stdin>", line 1Syntax Invalid Syntax我运行globals()来查看
Scrapy
是否运行正常。python
scrapy
startproject tutorialpython.exe: can't fin
浏览 4
提问于2017-11-08
得票数 0
回答已采纳
1
回答
Xpath不从
Scrapy
Shell中的<p>标记返回文本
、
、
、
XPath看起来是正确的,但它没有返回
scrapy
shell中的值。(请看下面的截图)。
浏览 17
提问于2020-05-09
得票数 0
回答已采纳
2
回答
使用
scrapy
提取大量登录页面的原始html内容
、
、
我想为它使用
scrapy
,但我无法获得代码。因为我在文档中读到JSON文件首先存储在内存中,然后保存(这会在抓取大量页面时导致问题),所以我想以“.
js
”格式保存文件。我使用Anaconda提示来
执行
我的代码。 我希望生成的文件有两列,一列是域名,另一列是每个站点上的raw_html内容 domain, html_raw ..., ...这是我得到的结果:( 启动项目:
scrapy
startproject dragonball 真实的蜘蛛(这可能是完全错误的): import
scrapy
浏览 10
提问于2019-02-12
得票数 0
回答已采纳
1
回答
误差twisted.internet.error.ReactorNotRestartable
、
、
、
例如,当我运行我的FastAPI并让
Scrapy
做一个刮擦时,它会很好地工作。把正确的数据给我。from fastapi import FastAPIfrom server.lib.ProdsWeg.ProdsWeg.spiders.produtosWegtermoss.isspace()) def inicio(): return {"Bem
浏览 8
提问于2022-11-09
得票数 0
回答已采纳
1
回答
产品信息分析及产品评论
、
、
我从这里开始:name = "shein_spider" "https://www.shein.com/tab02navbar02menu01dir06~~2_1_6~~real_1978~~~~0~~0" for item in response.css('.
js
-good
浏览 0
提问于2020-03-11
得票数 1
回答已采纳
1
回答
刮伤中的ItemLoader
、
import
scrapy
from
scrapy
.loader import ItemLoader articles = response.xpath('//div[@class="postArticle postArticle--short
js
-postArticle
js
-
浏览 1
提问于2020-02-24
得票数 0
回答已采纳
1
回答
使用
scrapy
从facebook中抓取数据
、
、
、
因此,在抓取这个url之前,我通过
scrapy
登录,然后通过这个结果页面登录。但是,即使这个页面的http响应是200,它也不会丢弃任何数据。守则如下:from
scrapy
.spider import BaseSpiderfrom
scrapy
.selectorimport HtmlXPathSelector from
scrapy
.contrib.spiders import CrawlSpider, R
浏览 3
提问于2013-05-31
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy如何顺序执行多个爬虫
python调用js代码执行
10 分钟理解 JS 引擎的执行机制
JS进阶 执行上下文和作用域链
Python 3 执行 JavaScript 脚本,js2py教程
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券