通过ajax get请求使用scrapy从无限滚动页面中抓取数据

文章/答案/技术大牛

发布

1回答

ajax、web-scraping、pagination、scrapy、infinite-scroll

我是网络抓取的新手，我想从一个网站的Events in Oslo抓取所有事件的信息我已经编写了一个示例代码来抓取数据，如下所示： '''A Python script to scrape datafrom 10times.com'''import requests '''Creatingit

浏览 31提问于2021-07-26得票数 0

回答已采纳

1回答

如何利用Ajax无限卷刮刮网站

python、web-scraping、scrapy、infinite-scroll

我是新来的Scrapy，我想刮一个汽车经销商网站。我只能从?page=1中抓取标题，但是它有til ?page=8，并且页面的数量可以根据库存车辆的数量而改变。站点在

浏览 3提问于2020-06-13得票数 0

回答已采纳

1回答

使用scrapy从facebook中抓取数据

facebook、web、web-crawler、scrapy

facebook上的新图表搜索允许您使用查询令牌搜索一家公司的现有员工- Current Google (例如)。import sysfro

浏览 3提问于2013-05-31得票数 5

2回答

如何在div中获取文本

python、scrapy

这是我使用的语句：但是，它没有返回任何内容。

浏览 1提问于2019-07-25得票数 1

3回答

如何抓取无限滚动的页面？

javascript、ruby、web-crawler

我试图建立一些东西，抓取内容从一个无限滚动的页面。然而，我不能从第一个“中断”下面得到这些东西。我该怎么做呢？

浏览 0提问于2012-10-21得票数 5

回答已采纳

2回答

我试图使用一个抓取蜘蛛爬行一个网站，使用一个FormRequest发送关键字到一个特定城市的网页上的搜索查询。看上去很直截了当，但我有麻烦了。Python非常新，很抱歉，如果有明显的东西，我忽略了。_-_Gainesville-224/recents 从我找到的特定页面的来源：<input name="dnn$ctl01$txtSearch" type="text" maxlength="255"/>，我认为搜索的

浏览 4提问于2016-03-23得票数 4

回答已采纳

1回答

抓取-当href =#时从多个页面中刮取数据

python、ajax、selenium、scrapy、webdriver

我正在尝试从多个页面中抓取数据。每页包含20个条目，然后单击next按钮转到下一页。</a> 这个页面是唯一的，因为它不使用XHR请求，就像我找到的许多其他例子一样。其他一些答案建议通过Chrome/Firefox开发工具监控GET请求，然后复制它们。这个站点不生成XHR请求，而是一系列javascript请求(一个AJAX

浏览 0提问于2017-05-20得票数 1

回答已采纳

1回答

使用scrapy抓取无限滚动的页面

python-3.x、scrapy、web-crawler、data-science

我需要帮助在无限的滚动页面。现在，我已经输入了pageNumber = 100，它帮助我从100页中获取名称。 name = 'story-spider' start_urls = ['

浏览 0提问于2020-06-05得票数 0

1回答

使用Selenium和Scrapy通过onclick抓取显示的数据

python、selenium、scrapy

我使用Scrapy用python编写了一个脚本，以便使用身份验证从网站上抓取数据。我正在抓取的页面真的很痛苦，因为主要是由javascript和AJAX请求组成的。页面的所有主体都放在允许使用submit按钮更改页面的<form>中。URL不会改变(而且是一个.aspx)。我已经成功地从第一页抓取了

浏览 38提问于2019-02-21得票数 0

1回答

使用scrapy从无限滚动页面中抓取数据？

python、ajax、web-scraping、scrapy

向下滚动时的响应url为： {"page_var":"<div id=\"page_variables................我的爬虫代码是： name = 'dummymart'

浏览 0提问于2018-08-16得票数 0

2回答

使用scrapy从无限大滚动页中抓取数据

python、ajax、web-scraping、beautifulsoup、scrapy

我编写了一个示例代码来抓取数据，如下所示： urls = [ ] yield scrapy.Reque

浏览 8提问于2022-06-13得票数 2

8回答

scrapy可以用来从使用AJAX的网站抓取动态内容吗？

javascript、python、ajax、screen-scraping、scrapy

它一点也不花哨；它的唯一目的是从投注网站获取数据，并将这些数据放入Excel中。现在我对动态网页内容的体验很低，所以这个东西是我很难理解的东西。简而言之

浏览 8提问于2011-12-18得票数 156

回答已采纳

1回答

如何在Scrapy中有条件地重试和重新整理当前页面？

python、web-scraping、scrapy

我是Scrapy的新手，对Python也不是很熟悉。我已经设置了一个抓取器来从网站上抓取数据，但是虽然我使用的是代理，但如果同一个代理被使用太多次，那么我的请求就会显示一个页面，告诉我访问太多页面太快(HTTP状态代码200)。因为我的抓取器看到的是页面的状态代码为on，它找不到所需的数据并移动到下一页。我可以确定何时通过HtmlXPathSe

浏览 1提问于2013-03-25得票数 3

回答已采纳

2回答

Scrapy解析JSON输出

python、json、scrapy

我正在使用Scrapy抓取一个网站。一些页面使用AJAX，所以我得到了AJAX请求来获取实际数据。到目前一切尚好。这些AJAX请求的输出是JSON输出。现在我想解析JSON，但是Scrapy只提供了HtmlXPathSelector。有没有人成功地将JSON输出转换成HTML，并能够用HtmlXPathSelector解析它？非常感谢你提前

浏览 1提问于2013-04-10得票数 4

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

python、beautifulsoup、scrapy、web-crawler

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

3回答

在使用Scrapy进行抓取之前，检查URL是否在文件中

python、scrapy、file-read

我正在抓取一个包含URL列表的大文件。显然，我不能连续地抓取所有的URL。我当前的解决方案从文件中读取URL。一旦它从该页面抓取和下载文档，我就会写入一个新文件，如下所示： https://url_i_completed_crawling E:/location_I_stored_crawled_files，程序从URL的原始文本文件开始，并开始重新搜索并使用相同的内容覆盖以前的下载。因此，我的问题是:当我重新启动

浏览 6提问于2019-10-11得票数 0

1回答

百度蜘蛛会理解无限滚动的页面吗？

seo、javascript、baidu、infinite-scroll

我的团队正在考虑实现一个无限滚动页面，同时保持良好的SEO。我们遵循谷歌关于无限滚动搜索引擎优化的建议，这篇文章是：http://googlewebmastercentral.blogspot.co.uk/2014/02/infinite-scroll-search-friendly.htmlpage=4 似乎完全有可能使无休止的分页，SEO友好，只要您的每个页面是分开寻址使用rel="next"&#

浏览 0提问于2015-12-03得票数 2

回答已采纳

1回答

如何在Scrapy* (python)中同时使用deltafetch和splash*

scrapy、scrapy-splash、scrapinghub

我正在尝试使用scrapy构建一个刮板，我计划使用deltafetch来启用增量刷新，但我需要解析基于javascript的页面，这也是我需要使用splash的原因。在settings.py文件中，我们需要添加SPIDER_MIDDLEWARES = {'scrapylib.deltafetch.DeltaFetch': 100,} for enabling deltafetchwhereas, we need to add SPIDER_MIDDLEWARES =

浏览 2提问于2018-03-15得票数 0

1回答

刮伤型FormRequest

python、scrapy、http-post、infinite-scroll

我试图从这个页面获得所有评论(无限滚动)：但是，当我尝试使用scrapy命令行时，我无法得到正确的响应。from scrapy import FormRequest fetch("https://www.temporel-voyance.com/voyance/planning&

浏览 1提问于2018-10-20得票数 1

回答已采纳

点击加载更多