腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
捕获
新页面
selenium
scrapy
的
url
、
、
、
我正在尝试开发一个网络抓取项目,在这个项目中我抓取了一个叫做startup印度
的
网站,在这个网站上,你可以用来连接初创公司,在这里,我根据我选择
的
一些过滤器点击,然后点击每个创业公司,当我点击每个创业公司时,我必须进入那个创业公司内部并抓取它,但这里
的
问题是在控制台中,我看不到我想要抓取
的
URL
。代码如下: import
scrapy
import osclass Produc
浏览 11
提问于2020-01-16
得票数 0
1
回答
使用
scrapy
和
selenium
检索广告urls
、
我正在尝试检索此网站
的
广告
URL
: 广告
URL
是使用javascript加载
的
,因此标准
的
爬行器无法工作。当您刷
新页面
时,广告也会发生变化。我发现了这个问题,,我收集到
的
是,我们首先需要使用
selenium
在浏览器中加载页面,然后使用
Scrapy
检索
url
。我有一些使用
scrapy
的
经验,但在使用
Selenium
方面一点经验都没有。有没有人可以向我展示/
浏览 0
提问于2015-03-13
得票数 0
1
回答
为什么我
的
start_request函数没有在我
的
scrapy
程序中调用我
的
解析函数?
、
、
我正在尝试对这个特定
的
IMDB标题进行审查。但是由于某些原因,start_request并没有单独为这个标题调用解析函数。对于另一个标题,它似乎是有效
的
。代码示例: name = 'imdb' def start_requests(self): yi
浏览 12
提问于2021-02-25
得票数 0
1
回答
如何
并行运行
Selenium
-
scrapy
、
、
、
、
我正在尝试使用
scrapy
和
selenium
来抓取javascript网站。我使用
selenium
和一个chrome驱动程序打开javascript网站,使用
scrapy
从当前页面抓取到不同列表
的
所有链接,并将它们存储在一个列表中(到目前为止,这是最好
的
方法,因为尝试使用seleniumRequest跟踪链接并回调到解析
新页面
函数已经导致了很多错误)。然后,我循环遍历
URL
列表,在
selenium
驱动程序中打开它们,并从页面中抓取信息
浏览 36
提问于2021-02-05
得票数 0
回答已采纳
1
回答
scrapy
或
selenium
:
如何
检查它会在一段时间后停止
、
我使用
selenium
和
scrapy
来销毁一个网站,
selenium
firefox窗口会在一个页面停留一段时间(我想超过一分钟)。self.driver.implicitly_wait(20)
scrapy
会在无法
捕获
数据时停止吗?多长?如果卡住了,我
如何
设置抓取超时,让它找到下一个要
捕获
浏览 2
提问于2014-08-10
得票数 0
1
回答
刮硒
、
我试着用
Scrapy
和
Selenium
刮掉一个页面import
scrapy
name = "sample" def __init__(self):self.driver = webdriver.Chro
浏览 0
提问于2017-09-29
得票数 0
回答已采纳
3
回答
如何
将
Selenium
html页面传递给htmlXpathSelector
、
、
我需要抓取一个使用javascript
的
页面。这就是我使用
Selenium
的
原因。问题是
selenium
无法获取所需
的
数据。 我想使用htmlXmlSelector来尝试获取数据。
如何
将生成
的
html
selenium
传递给htmlXmlSelector?
浏览 5
提问于2012-07-27
得票数 3
回答已采纳
1
回答
未在
Scrapy
解析函数中定义
的
响应
、
、
我正试图结合
Selenium
编写一个
Scrapy
蜘蛛,以访问我正在抓取
的
页面上
的
一些JavaScript内容。我已经成功地使用
Selenium
打开了页面,并等待内容出现。现在,我想从完全加载
的
页面构建一个
Scrapy
TextResponse。我
的
代码看起来如下(我删除了
URL
和选择器字符串,它们并不重要):from
scrapy
import signals from
浏览 2
提问于2016-02-29
得票数 1
回答已采纳
2
回答
如何
在漂亮汤中获取div标记
的
内部html属性
、
、
Web站点中内置了内部HTML例如,不能从div标签中提取“这个价格好”
的
标签from bs4 import BeautifulSoup source_code = requests.get(in_
url
) plain_t
浏览 3
提问于2017-08-05
得票数 1
回答已采纳
1
回答
刮刮与硒一起刮网站
、
、
、
对于我来说,用
selenium
和
scrapy
刮多个页面是我面临
的
最大挑战。我搜索了许多问题,
如何
用
selenium
和
scrapy
刮多个页面,但是我找不到任何解决方案,我面临
的
问题是它们只会刮1页。我使用
selenium
来抓取多个页面,它对我来说是有效
的
,但是
selenium
对多个页面的抓取速度并不比我要移动到
scrapy
上
的
要快,因为它们比
selenium
快得多,
浏览 8
提问于2022-06-23
得票数 -2
1
回答
Scrapy
和硒:让
scrapy
等待硒?
、
、
、
我只需要为我
的
项目的一部分javascript。所以我用
scrapy
抓取了站点
的
一部分,然后在
selenium
中打开
URL
。当
URL
打开时,
scrapy
仍在继续。
如何
让
scrapy
等待我
的
selenium
逻辑完成? 提前谢谢。
浏览 0
提问于2016-12-16
得票数 0
1
回答
Selenium
运行Firefox驱动程序,用于不使用
、
、
我使用了
的
火狐驱动程序来加载和废弃项目中
的
一些蜘蛛中
的
网页。预期行为:为什么这很重要?在蜘蛛完成后,我将退出Firefox实例,但在不使用
Selenium
的
蜘蛛中,这种情况并不明显。这个蜘蛛没有使用
Selenium
,我希望它不会运行Firefox。class MySpider
浏览 3
提问于2016-12-10
得票数 2
回答已采纳
1
回答
如何
使
Selenium
与
Scrapy
并行运行?
、
、
我试着用
Scrapy
和
Selenium
来刮一些urls。有些urls由
Scrapy
直接处理,而其他urls则首先使用
Selenium
处理。问题是:
Selenium
在处理
url
时,
Scrapy
没有并行处理其他
url
。它等待work驱动程序完成它
的
工作。我尝试在不同
的
进程中使用不同
的
init参数(使用多处理池)来,但是我得到了twisted.internet.error.ReactorNotResta
浏览 5
提问于2020-04-13
得票数 3
回答已采纳
2
回答
Scrapy
在Xpath或Css中找不到文本
、
、
、
、
我在这方面已经做了几天了,不管我怎么尝试,我都不能把一个元素中
的
文本抽象出来。start_
url
= "https://www.tripadvisor.com/VacationRentalReview-g34416是的,我通过chrome找到了xpath和css选择器,但其他
的
都工
浏览 11
提问于2018-02-13
得票数 0
2
回答
使用
scrapy
抓取节点
、
我正在尝试使用
scrapy
从网站抓取一些广告信息。该网站有一些带有class="product-card new_ outofstock installments_ "
的
div标签。response.xpath("//div[contains(@class, 'product-')]") 我得到了一些带有类属性= "product-description"但没有"product-card"
的
节点
浏览 1
提问于2016-01-15
得票数 0
1
回答
如何
使用
Scrapy
自动获取请求头?
、
然后可以将这些标头添加到
Scrapy
请求中。我们在浏览器中看到了更多
的
请求头信息
如何
获取这些信息?
浏览 50
提问于2021-05-21
得票数 0
回答已采纳
2
回答
为什么我不能在
Scrapy
中解析响应?
我是新
的
抓取和使用它从拉扎达网站刮数据。我得到了200条HTTP消息,这意味着响应将成功返回。但是我不能解析响应,尽管xpath查询是正确
的
。有谁可以帮我?谢谢。这是代码:name = 'lazada' allowed_domains = ['lazada.com.myUPDATE:我确实尝试过获取存储在javascript中
的
数据,或者使用
selenium
浏览 19
提问于2020-10-28
得票数 0
2
回答
将呈现
的
页面从
Selenium
传递到
Scrapy
、
、
我想刮掉需要登录
的
Javascript页面。我想知道是否可以使用
Selenium
加载并登录到页面,然后
Selenium
将呈现
的
代码传递给
Scrapy
进行数据提取。import
scrapy
from
selenium
.webdriver.common.keys import Keys na
浏览 28
提问于2019-07-24
得票数 1
1
回答
用硒爬行而不是刮刮
、
、
、
、
我已经阅读了所有使用
scrapy
对AJAX页面进行抓取
的
线程,并安装了
selenium
来简化任务,我
的
爬行器可以部分爬行,但不能将任何数据输入到我
的
项目中。div1/div3/div3/ul/li2/div2/span2/ul/li3/a/@href) post_title (xpath://a@class="title_txt") post_page_
url
浏览 4
提问于2014-12-20
得票数 5
1
回答
找不到Bs4标记
、
、
、
我试图为目标网站制作一个网络刮刀。我正在使用下面的代码,它可以很好地找到产品信息,但是找到价格没有任何回报。我不明白为什么价格找不到,但其他标签都能找到。谢谢您提前提供帮助!for data in soup.findAll('span',{'data-test':'product-price'}): price = str(data.text)
浏览 4
提问于2022-01-12
得票数 -2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券