如何捕获新页面selenium scrapy的url

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试开发一个网络抓取项目，在这个项目中我抓取了一个叫做startup印度的网站，在这个网站上，你可以用来连接初创公司，在这里，我根据我选择的一些过滤器点击，然后点击每个创业公司，当我点击每个创业公司时，我必须进入那个创业公司内部并抓取它，但这里的问题是在控制台中，我看不到我想要抓取的URL。代码如下： import scrapyimport osclass Produc

浏览 11提问于2020-01-16得票数 0

1回答

使用scrapy和selenium检索广告urls

、

我正在尝试检索此网站的广告URL：广告URL是使用javascript加载的，因此标准的爬行器无法工作。当您刷新页面时，广告也会发生变化。我发现了这个问题，，我收集到的是，我们首先需要使用selenium在浏览器中加载页面，然后使用Scrapy检索url。我有一些使用scrapy的经验，但在使用Selenium方面一点经验都没有。有没有人可以向我展示/

浏览 0提问于2015-03-13得票数 0

1回答

为什么我的start_request函数没有在我的scrapy程序中调用我的解析函数？

、、

我正在尝试对这个特定的IMDB标题进行审查。但是由于某些原因，start_request并没有单独为这个标题调用解析函数。对于另一个标题，它似乎是有效的。代码示例： name = 'imdb' def start_requests(self): yi

浏览 12提问于2021-02-25得票数 0

1回答

我正在尝试使用scrapy和selenium来抓取javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站，使用scrapy从当前页面抓取到不同列表的所有链接，并将它们存储在一个列表中(到目前为止，这是最好的方法，因为尝试使用seleniumRequest跟踪链接并回调到解析新页面函数已经导致了很多错误)。然后，我循环遍历URL列表，在selenium驱动程序中打开它们，并从页面中抓取信息

浏览 36提问于2021-02-05得票数 0

回答已采纳

1回答

scrapy或selenium:如何检查它会在一段时间后停止

、

我使用selenium和scrapy来销毁一个网站，selenium firefox窗口会在一个页面停留一段时间(我想超过一分钟)。self.driver.implicitly_wait(20)scrapy会在无法捕获数据时停止吗？多长？如果卡住了，我如何设置抓取超时，让它找到下一个要捕获

浏览 2提问于2014-08-10得票数 0

1回答

刮硒

、

我试着用Scrapy和Selenium刮掉一个页面import scrapy name = "sample" def __init__(self):self.driver = webdriver.Chro

浏览 0提问于2017-09-29得票数 0

回答已采纳

3回答

如何将Selenium* html页面传递给htmlXpathSelector*

、、

我需要抓取一个使用javascript的页面。这就是我使用Selenium的原因。问题是selenium无法获取所需的数据。我想使用htmlXmlSelector来尝试获取数据。如何将生成的html selenium传递给htmlXmlSelector？

浏览 5提问于2012-07-27得票数 3

回答已采纳

1回答

未在Scrapy解析函数中定义的响应

、、

我正试图结合Selenium编写一个Scrapy蜘蛛，以访问我正在抓取的页面上的一些JavaScript内容。我已经成功地使用Selenium打开了页面，并等待内容出现。现在，我想从完全加载的页面构建一个Scrapy TextResponse。我的代码看起来如下(我删除了URL和选择器字符串，它们并不重要)：from scrapy import signals from

浏览 2提问于2016-02-29得票数 1

回答已采纳

2回答

如何在漂亮汤中获取div标记的内部html属性

、、

Web站点中内置了内部HTML例如，不能从div标签中提取“这个价格好”的标签from bs4 import BeautifulSoup source_code = requests.get(in_url) plain_t

浏览 3提问于2017-08-05得票数 1

回答已采纳

1回答

刮刮与硒一起刮网站

、、、

对于我来说，用selenium和scrapy刮多个页面是我面临的最大挑战。我搜索了许多问题，如何用selenium和scrapy刮多个页面，但是我找不到任何解决方案，我面临的问题是它们只会刮1页。我使用selenium来抓取多个页面，它对我来说是有效的，但是selenium对多个页面的抓取速度并不比我要移动到scrapy上的要快，因为它们比selenium快得多，

浏览 8提问于2022-06-23得票数 -2

1回答

Scrapy和硒:让scrapy等待硒？

、、、

我只需要为我的项目的一部分javascript。所以我用scrapy抓取了站点的一部分，然后在selenium中打开URL。当URL打开时，scrapy仍在继续。如何让scrapy等待我的selenium逻辑完成？提前谢谢。

浏览 0提问于2016-12-16得票数 0

1回答

Selenium运行Firefox驱动程序，用于不使用

、、

我使用了的火狐驱动程序来加载和废弃项目中的一些蜘蛛中的网页。预期行为：为什么这很重要？在蜘蛛完成后，我将退出Firefox实例，但在不使用Selenium的蜘蛛中，这种情况并不明显。这个蜘蛛没有使用Selenium，我希望它不会运行Firefox。class MySpider

浏览 3提问于2016-12-10得票数 2

回答已采纳

1回答

如何使Selenium与Scrapy并行运行？

、、

我试着用Scrapy和Selenium来刮一些urls。有些urls由Scrapy直接处理，而其他urls则首先使用Selenium处理。问题是: Selenium在处理url时，Scrapy没有并行处理其他url。它等待work驱动程序完成它的工作。我尝试在不同的进程中使用不同的init参数(使用多处理池)来，但是我得到了twisted.internet.error.ReactorNotResta

浏览 5提问于2020-04-13得票数 3

回答已采纳

2回答

Scrapy在Xpath或Css中找不到文本

、、、、

我在这方面已经做了几天了，不管我怎么尝试，我都不能把一个元素中的文本抽象出来。start_url = "https://www.tripadvisor.com/VacationRentalReview-g34416是的，我通过chrome找到了xpath和css选择器，但其他的都工

浏览 11提问于2018-02-13得票数 0

2回答

使用scrapy抓取节点

、

我正在尝试使用scrapy从网站抓取一些广告信息。该网站有一些带有class="product-card new_ outofstock installments_ "的div标签。response.xpath("//div[contains(@class, 'product-')]") 我得到了一些带有类属性= "product-description"但没有"product-card"的节点

浏览 1提问于2016-01-15得票数 0

1回答

如何使用Scrapy自动获取请求头？

、

然后可以将这些标头添加到Scrapy请求中。我们在浏览器中看到了更多的请求头信息如何获取这些信息？

浏览 50提问于2021-05-21得票数 0

回答已采纳

2回答

为什么我不能在Scrapy中解析响应？

我是新的抓取和使用它从拉扎达网站刮数据。我得到了200条HTTP消息，这意味着响应将成功返回。但是我不能解析响应，尽管xpath查询是正确的。有谁可以帮我？谢谢。这是代码：name = 'lazada' allowed_domains = ['lazada.com.myUPDATE：我确实尝试过获取存储在javascript中的数据，或者使用selenium

浏览 19提问于2020-10-28得票数 0

2回答

将呈现的页面从Selenium传递到Scrapy

、、

我想刮掉需要登录的Javascript页面。我想知道是否可以使用Selenium加载并登录到页面，然后Selenium将呈现的代码传递给Scrapy进行数据提取。import scrapyfrom selenium.webdriver.common.keys import Keys na

浏览 28提问于2019-07-24得票数 1

1回答

用硒爬行而不是刮刮

、、、、

我已经阅读了所有使用scrapy对AJAX页面进行抓取的线程，并安装了selenium来简化任务，我的爬行器可以部分爬行，但不能将任何数据输入到我的项目中。div1/div3/div3/ul/li2/div2/span2/ul/li3/a/@href) post_title (xpath://a@class="title_txt") post_page_url

浏览 4提问于2014-12-20得票数 5

1回答

找不到Bs4标记

、、、

我试图为目标网站制作一个网络刮刀。我正在使用下面的代码，它可以很好地找到产品信息，但是找到价格没有任何回报。我不明白为什么价格找不到，但其他标签都能找到。谢谢您提前提供帮助！for data in soup.findAll('span',{'data-test':'product-price'}): price = str(data.text)

浏览 4提问于2022-01-12得票数 -2

点击加载更多