如何遍历URL列表以抓取Scrapy中的数据？

文章/答案/技术大牛

发布

1回答

url、scrapy、scrape

import scrapy name='one_plus' start_urls

浏览 16提问于2020-09-22得票数 0

1回答

如何让scrapy使用url遍历归档文件？

python、python-3.x、scrapy

我正在尝试让一个抓取蜘蛛抓取归档中的几个页面，目的是打开每个单独的链接并抓取链接页面的内容。我遇到了一些随机的HTTP500错误，我试图通过简单的尝试跳过这些错误-除了跳过那些返回500个错误的页面。解析函数的第一部分使用parse_art函数遍历归档页面中的href，以获取要抓取的页面。第二部分是在归档<e

浏览 18提问于2019-07-08得票数 1

回答已采纳

0回答

Scrapy跟随链接未获取数据

python、web-scraping、scrapy

我试图用一个简单的抓取蜘蛛来跟踪一个链接列表，并从每个链接中删除数据，但我遇到了麻烦。在scrapy shell中，当我重新创建脚本时，它会发送新url的get请求，但是当我运行爬网时，我没有从链接中得到任何数据。我得到的唯一数据是从链接之前抓取的起始url。如何从链接中<e

浏览 4提问于2017-11-26得票数 0

回答已采纳

2回答

Scrapy:修改响应中的元素和字段

python、python-2.7、scrapy、lxml

我对Scrapy、Python和面向对象编程比较陌生，所以如果我遇到任何术语错误或不清楚的地方，我深表歉意。目前，我正在使用Scrapy的选择器抓取数据，并使用lxml修改响应。选择器迭代图像以抓取</

浏览 2提问于2015-07-19得票数 6

2回答

Python Scrapy字典项目

python、list、dictionary、web-scraping、scrapy

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我假设爬行器应该不断地抓取每个URL，将HTML转换为纯文本，然后将每个字符串划分为列表项，创建一个列表，然后只向该列表添加以前

浏览 12提问于2020-04-28得票数 0

1回答

使用scrapy抓取各种网站并找到特定的单词

python、web-crawler、scrapy

我对scrapy框架是个新手。他们有一个很棒的文档，我在里面学到了各种东西。我正在尝试卷曲各种教育网站到深度3级，在每个网站中找到cse部门(尝试找到cse或计算机或在该页面上抓取的链接中的单词列表)。我想导入csv文件并遍历每个URL。我该怎么做呢？如果他们有cs部门，这些链接应该写在csv文件中。如何修改我的XPath以在每个网站中找到cse部门(尝试在该页面

浏览 2提问于2012-11-08得票数 0

2回答

通过BeautifulSoup解析存储在URL中的数据？

python、html、web-scraping、beautifulsoup

我正在尝试通过这个网站访问不同鱼类家族的URL：import urllib2from bs4 import BeautifulSoup fish_url = 'http:/CommonName=Sa

浏览 0提问于2012-03-06得票数 0

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

python、django、scrapy

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我有一个相当长的start_urls列表，它从一个连接到Django项目的SQLite数据库中获取条目。我想将抓取的web链接保存在此数据库中。所有抓取的网页链接都是start_urls列表中

浏览 1提问于2012-05-15得票数 7

回答已采纳

1回答

Scrapy不爬行于start中包含的数据。

python、scrapy、web-crawler

我试图抓取整个网站使用刮刮。根据scarpy的文件因此，根据这个定义，scrapy应该遍历start_urls下提到的

浏览 3提问于2014-10-29得票数 2

回答已采纳

1回答

Scrapy获取URL的所有外部链接

hyperlink、scrapy、external

我使用mydomain.com来抓取整个网站(allow_domains = scrapy )。现在我想从当前URL获取所有外部链接(到其他域)。如何将其集成到我的spider.py中，以获得包含所有外部URL的列表？

浏览 3提问于2014-12-23得票数 2

1回答

使用来自同一URL的多个POST数据进行抓取

python、loops、web-scraping、screen-scraping、scrapy

我已经创建了一个爬虫，它收集具有匹配电话号码的公司名称列表。然后将其保存为CSV文件。from scrapy.s

浏览 1提问于2013-07-17得票数 3

回答已采纳

1回答

如何让Scrapy只抓取Xpath中的链接？

python、web-scraping、scrapy

我是Scrapy的新手，我想做的是做一个爬虫，它只会跟踪给定start_urls上的HTML元素中的链接我不想抓取URL中的所有链接，而是只想抓取xpath中的链接目前，我正在使用以下代码来抓取所有的链接，我如何</

浏览 0提问于2012-12-25得票数 6

回答已采纳

1回答

如何并行运行Selenium-scrapy

python、selenium、web-scraping、scrapy、multiprocessing

我正在尝试使用scrapy和selenium来抓取javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站，使用scrapy从当前页面抓取到不同列表的所有链接，并将它们存储在一个列表中(到目前为止，这是最好的方法，因为尝试使用seleniumRequest然后，我循环遍历URL列表，在selenium驱动程序中打开它们

浏览 36提问于2021-02-05得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

python、beautifulsoup、scrapy、web-crawler

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

如何使用Scrapy更新价格

python、web-scraping、beautifulsoup、scrapy、scrapy-splash

我正在开发价格下降通知应用程序，我正在考虑使用Scrapy，但是，我不确定如何使用它，我是否需要在特定间隔后定期检查产品价格，或者有任何其他方法来做到这一点。

浏览 2提问于2021-06-13得票数 0

1回答

如何使用scrapy抓取网站？

web-crawler、web-scraping、scrapy

我要写一个基于scrapy的Gui应用程序，用户输入一个网站的URL，然后点击“爬网”按钮，整个网站就会被抓取并存储在内置的scrapy-db (sqlite)中。如何使用scrapy帮助我抓取网站？

浏览 4提问于2012-03-09得票数 0

1回答

将Scrapy指向本地缓存，而不是执行正常的爬行过程

python、web-scraping、scrapy

我使用管道将Scrapy爬行中的文档缓存到数据库中，这样，如果我更改了项目解析逻辑，就可以重新解析它们，而不必再次访问服务器。让Scrapy从缓存中处理而不是尝试执行常规抓取的最好方法是什么？我喜欢scrapy对CSS和XPath选择器的支持，否则我会用lxml解析器单独访问数据库。有一段时间，我根本没有缓存文档并以正常的方式使用Scrapy

浏览 1提问于2015-09-05得票数 3

1回答

Scrapy有物品限制吗？

python、python-2.7、class、web-crawler、scrapy

在那些日子里，我用Python用Scrapy制作了一个蜘蛛。它基本上是一个简单爬行器类，用于对Html页面中的某些字段进行简单的解析。我不使用starts_url[] Scrapy字段，但我使用如下的个性化列表：def __init__(self, url, data): self.urlself.url_to_scrape.append(s

浏览 3提问于2015-10-16得票数 0

1回答

如何打开一个包含urls列表的大型csv并抓取这些urls？

python、scrapy

我在本地机器上有一个很大的csv，它只包含一个urls列表，没有其他我想要抓取的列，并从每个urls中提取特定的css元素。我已经完成了一个测试，不看csv，只做一个一次性的开始url。我不知道如何打开一个包含一百万个urls的大型csv，让scrapy遍历每个urls，然后再转到下一个。import scrapy from ..items import stkscrapeItem

浏览 3提问于2020-04-30得票数 0

1回答

当我在刮一个网站的时候，我的产品会去哪里？

python、scrapy、generator、yield

我用刮痕来抓取网站。我有这样一个代码块，它删除了我的data.json文件中的现有数据： if f:然后，我向项目容器提供数据：items['name'] = name在函数的末尾，我向列表</

浏览 3提问于2020-07-26得票数 0

回答已采纳

点击加载更多