如何使用scrapy保存图像

Scrapy是一个基于Python的开源网络爬虫框架，用于从网页中提取数据。使用Scrapy保存图像的步骤如下：

导入必要的库和模块：

import scrapy
from scrapy.pipelines.images import ImagesPipeline

创建一个自定义的管道类，继承自ImagesPipeline，用于处理图像下载和保存：

class MyImagesPipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None):
        # 定义保存图像的路径和文件名
        image_name = request.url.split('/')[-1]
        return image_name

在Scrapy的项目设置文件（settings.py）中启用自定义的管道类：

ITEM_PIPELINES = {
    'myproject.pipelines.MyImagesPipeline': 1,
    # 其他的管道类...
}

在Spider文件中定义图像的URL，并将其添加到待爬取的请求中：

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = [
        'http://example.com/page1.html',
    ]

    def parse(self, response):
        # 提取图像URL
        image_urls = response.css('img::attr(src)').getall()
        
        # 构建图像请求并回调处理方法
        for url in image_urls:
            yield scrapy.Request(url, self.parse_image)

    def parse_image(self, response):
        # 在回调方法中，提取图像数据并传递给管道类进行处理
        yield {
            'image': response.body
        }

运行Scrapy爬虫，并将图像保存到本地目录中：

scrapy crawl myspider

以上步骤中，自定义的管道类MyImagesPipeline负责处理图像的下载和保存。在file_path方法中，可以自定义图像保存的路径和文件名。使用Scrapy爬取图像时，将图像数据通过字典的形式传递给管道类，在管道类中会将图像保存到指定的路径中。

推荐的腾讯云相关产品：腾讯云对象存储（COS）

概念：腾讯云对象存储（Cloud Object Storage，简称COS）是一种海量、安全、低成本、高可靠的云存储服务，适用于存储和处理任意类型的文件。
分类：COS分为标准存储、低频存储和归档存储三种存储类型，根据数据的访问频率和成本要求选择合适的存储类型。
优势：
- 强大的扩展性和高可靠性，能够应对海量数据的存储需求。
- 支持多种存储类型，根据实际需求选择合适的存储成本。
- 提供丰富的API和SDK，方便集成和使用。
- 具备安全可靠的数据加密和权限控制机制。
- 提供高速的内容分发网络（CDN）服务，加速文件传输和访问速度。
应用场景：适用于图片、视频、音频、日志、备份、静态网页、大数据分析等各种类型的数据存储和处理场景。
腾讯云COS产品介绍链接：https://cloud.tencent.com/product/cos

通过以上的方法和使用腾讯云对象存储（COS），可以方便地使用Scrapy保存图像数据到云存储中。

页面内容是否对你有帮助？

有帮助

没帮助

如何使用Scrapy下载图像？

、、

我是新手。我正在尝试从下载一张图片。我在跟踪和。我的settings.py看起来像： BOT_NAME = 'shopclues' SPIDER_MODULES = ['shopclues.spiders'] NEWSPIDER_MODULE = 'shopclues.spiders' ROBOTSTXT_OBEY = True ITEM_PIPELINES = { 'scrapy.contrib.pipeline.images.ImagesPipeline':1 } IMAGES_STORE="home

浏览 2提问于2016-09-28得票数 4

回答已采纳

1回答

如何从scrapy python下载图像并将它们保存到文件夹中，并在变量中保存它们的路径

、、、、

import scrapy import json class Brand(scrapy.Item): name = scrapy.Field() url = scrapy.Field() brand_image = scrapy.Field() productsList = scrapy.Field() class QuotesSpider(scrapy.Spider): name = "brandDetails" def start_requests(self): with open('bran

浏览 5提问于2018-09-29得票数 2

4回答

将主机OS中的内容复制到Docker映像中，而不重新生成映像

、、、

我正在构建一个新的映像，并将主机OS文件夹D：\Program\scrapy中的内容复制到其中，如：docker build . -t scrapy Dockerfile FROM mcr.microsoft.com/windows/servercore:ltsc2019 SHELL ["powershell", "-Command", "$ErrorActionPreference = 'Stop'; $ProgressPreference = 'SilentlyContinue';"] RUN mkdir r

浏览 6提问于2021-09-08得票数 5

回答已采纳

1回答

只下载一张图片

、

我试图使用ImagesPipeline下载图像，结果只能得到一张图片(最后一张)；参见屏幕截图：我的目标网站是你可以检查我的代码： #This is spider: import scrapy from imgPro.items import ImgproItem from PIL import Image class ImgSpider(scrapy.Spider): name = 'img' #allowed_domains = ['www.xxx.com'] start_urls = ['https://

浏览 4提问于2021-03-21得票数 0

回答已采纳

1回答

从每个项目重命名几个图像

、、、

我想重命名与我的蜘蛛下载的图像，所有工作良好，除了他只采取一个图像每一项如何我可以重命名图像，例如： "object_title_1.jpg“ "object_title_2.jpg“ "object_title_3.jpg“ 这是我的代码： class MyImagesPipeline(ImagesPipeline): #Name download version def file_path(self, request, response=None, info=None): image_guid = request

浏览 1提问于2019-08-04得票数 0

2回答

抓取CrawlSpider:在提取链接之前获取数据

在CrawlSpider中，在提取每个链接之前，我如何在图像中擦除标记"4天前“的字段？下面提到的CrawlSpider运行良好.但是在'parse_item‘中，我想添加一个名为'Add’的新字段，在这里我希望在图像上标记该字段。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class PropertySpider(CrawlSpider): name = 'proper

浏览 6提问于2022-03-04得票数 1

回答已采纳

2回答

刮擦图像并保存jpg

、、

我在抓取图像时遇到了一些麻烦。 Settings.py: ITEM_PIPELINES = { 'scrapy.contrib.pipeline.images.FilesPipeline': 1, } FILES_STORE = 'D:/0. Documentos/10. GitHub/0. 93Pipe/RealEstatePredictor/Images' Items.py 进口刮伤 class MagazineCover(scrapy.Item): title = scrapy.Field() pubDate = scrapy.Fie

浏览 3提问于2021-02-08得票数 1

2回答

如何使用Scrapy下载需要cookie的映像

、、、、

我用刮伤来爬行一个网站--这是我登录后如何维护cookie jar的 def start_requests(self): return [scrapy.Request("https://www.address.com", meta = {'cookiejar' : 1}, callback = self.post_login)] def post_login(self, response): print('Preparing login') return [FormRequest.from_response(respo

浏览 3提问于2017-03-31得票数 1

回答已采纳

1回答

刮擦不要将值保存到项

、、

从今天起，我的蜘蛛不会将任何信息保存到我的项目"DuifpicturesItem“。我得到了几乎相同的蜘蛛，为不同的客户，但这是不会保存任何东西，懒惰为什么。我的items.py只有两个字段:图像和链接在我的控制台中，我可以看到，我收集了正确的数据，但它确实保存了数据。我的代码 # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from ..items import Dui

浏览 4提问于2020-09-14得票数 0

回答已采纳

2回答

刮取-如何存储下载图像的本地路径？

、、

我的刮板运行良好，它下载图像并在数据库中注册项目，但我也希望将它们的本地路径保存到我的MySQL数据库中，我不知道如何继续。我在医生里读过这个：下载图像时，将使用结果填充另一个字段(图像)。使用下面的代码，路径不会被保存，我得到了以下错误： return self._values[key] exceptions.KeyError: 'images' 以下是我的代码摘录： items.py: image_urls = Field() images = Field() my_spider.py: from scrapy.spider import BaseSp

浏览 4提问于2013-05-03得票数 1

回答已采纳

1回答

抓取图像失败

、、

我正在尝试从一个网站抓取图片，代码如下： import urlparse from PIL import Image from scrapy.exceptions import DropItem, NotConfigured, IgnoreRequest from scrapy.spider import BaseSpider from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contr

浏览 2提问于2013-05-27得票数 1

回答已采纳

2回答

使用刮伤下载图像时遇到麻烦

、、、、

我用python编写了一个脚本，从一个网站下载一些图片。当我运行脚本时，我可以在控制台中看到图像的链接(它们都是.jpg格式的)。但是，当我打开当下载完成时应该保存图像的文件夹时，我在里面什么都没有。我在哪里犯错误？这是我的蜘蛛(我在逃避崇高的文本编辑器)： import scrapy from scrapy.crawler import CrawlerProcess class YifyTorrentSpider(scrapy.Spider): name = "yifytorrent" start_urls= ['https://www.yify

浏览 0提问于2018-07-02得票数 7

回答已采纳

1回答

Scrapy:如何更改图像名称

我正在用scrapy做一个项目。我在html中获得了图像名称和图像url，如何使用该名称而不是哈希名来命名此图像？我得到了这个网址：，它的名字是: iBook，我希望我的scrapy下载这张图片，并将其重命名为iBook。

浏览 1提问于2013-01-05得票数 0

1回答

CrawlerRunner()未通过scrapy的管道文件

、、

我正在尝试从Django调用scrapy spider，views.py file.The spider确实被调用了，但它的输出显示在命令提示符中，并且没有保存在Django模型中以将其呈现到页面上。我单独检查了运行爬虫以验证scrapy和Django是否连接并且工作正常，但当使用CrawlerRunner()脚本进行自动化时，它不能正常工作。所以在Django Views.py文件的CrawlerRunner()实现中缺少一些组件。下面是调用爬行器的Django Views.py文件： @csrf_exempt @require_http_methods(['POST',

浏览 44提问于2020-02-01得票数 0

回答已采纳

1回答

我如何“重新解析”记录在数据库中的html页面？

、、

我用Scrapy在我的数据库中记录了html页面。我想用同样的管道对它们进行修复。如何从数据库中获取页面，使其遵循与普通Scrapy管道相同的管道？

浏览 1提问于2017-08-17得票数 0

回答已采纳

1回答

如何检查Scrapy管道是否使用代理下载图像？

、、、、

我已经建立了一个刮板，并希望下载一些图片使用代理刮除。我不知道它是否真的通过代理下载。响应头不显示IP。此外，如果我将IP更改为随机IP，它仍然会下载图像。如何确保它使用代理下载图像？谢谢 Pipelines.py import scrapy from scrapy.pipelines.images import ImagesPipeline from scrapy.exceptions import DropItem class MyImagesPipeline(ImagesPipeline): def get_media_requests(self, item, info):

浏览 2提问于2017-03-24得票数 0

回答已采纳

1回答

我如何知道哪个图像是用自定义图像管道下载的？

、

我创建了一个有两个图像的刮痕项目。这些图像需要在我的项目管道中进行后处理。然而，这两幅图像都有不同的后处理需求。我的图像管道目前看起来如下： import scrapy from scrapy.contrib.pipeline.images import ImagesPipeline from scrapy.exceptions import DropItem class CustomImagePipeline(ImagesPipeline): def get_media_requests(self, item, info): yield scrapy.Reque

浏览 1提问于2015-02-16得票数 0

回答已采纳

2回答

我如何安排抓取蜘蛛在一定的时间后爬行？

、

我想安排我的蜘蛛在爬行完成后1小时内再次运行。在我的代码中，spider_closed方法是在爬行结束后调用的。现在，如何从这个方法再次运行爬行器。或者是否有任何可用的设置来调度抓取蜘蛛。这是我的基本爬虫代码。 import scrapy import codecs from a2i.items import A2iItem from scrapy.selector import Selector from scrapy.http import HtmlResponse from scrapy.contrib.spiders import CrawlSpider, Rule from scr

浏览 2提问于2016-06-19得票数 4

4回答

Scrapy图像下载

、、

我的爬行器运行时没有显示任何错误，但图像没有存储在文件夹中，以下是我的抓取文件： Spider.py: import scrapy import re import os import urlparse from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.loader.processors import Join, MapCompose, TakeFirst from scrapy.pipelines.images import Imag

浏览 71提问于2016-08-05得票数 6

回答已采纳

1回答

Scrapy保存完整的html文件

、

我使用scrapy为我的爬虫，它是完美的工作，但我需要保存整个html文件从我正在编写的csv文件分开。我不知道如何保存我正在解析的整个html文件。 import scrapy from myfirsttime.items import RItem import csv class RSpider(scrapy.Spider): name = 'Rspider' def start_requests(self): l = open('/home/ubuntu/Desktop/R.csv') data = c

浏览 1提问于2018-09-12得票数 0

3回答

如何在通过刮伤下载图像时给出自定义名称

、、

这是我的程序，通过图像管道下载图像。它运行良好并下载图像，但是问题**是在sha1哈希中重命名图像，之后我无法识别它们。有什么解决方案可以让我在下载图像时使用**model_name吗？ import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from selenium import webdriver fro

浏览 5提问于2015-08-03得票数 1

1回答

抓取解析网页，提取结果页，并下载图像。

、、、、

我已经用python编写了一个web爬虫，使用了Beautiful，并请求为一个项目抓取图像，但是速度很慢。我听说Scrapy要快得多，所以我安装了它并阅读了大量教程，但是我不知道如何在爬行器脚本的parse函数中实现爬虫。如果我提供到搜索结果的第一页的链接，它应该： 'id' 通过分析特定类的<a>标记来查找搜索结果中的页数，并根据特定类的<a>标记分析Get链接，并根据特定的从这些链接中下载图像。我已经更新了项目和设置脚本，如下所示。你能给我的任何帮助都是非常感谢的。 items.py import scrapy class SampleIte

浏览 3提问于2020-05-17得票数 1

回答已采纳

2回答

从该网站刮取特征图像，但它返回“数据: image /gif”

、、、、

使用python中的Scrapy和scrape从这个网站中刮取特征图像，但是它返回这个data:image/gif;base64,R0而不是这个图像的src，如果有人告诉我如何修复它以获得该图像的src，我需要有人的帮助。这是我的密码 Feature_Image = [i.strip() for i in response.xpath('//*[@id="main-content"]/article/div/div/div[2]/div[1]/picture/img/@src').getall()][0]

浏览 12提问于2022-10-19得票数 0

回答已采纳

1回答

在Scrapinghub上运行蜘蛛时如何保存下载的文件？

、

stockInfo.py包含： import scrapy import re import pkgutil class QuotesSpider(scrapy.Spider): name = "stockInfo" data = pkgutil.get_data("tutorial", "resources/urls.txt") data = data.decode() start_urls = data.split("\r\n") def parse(self, response):

浏览 0提问于2019-03-16得票数 7

回答已采纳

1回答

如何使用scrapy抓取网站？

、、

我要写一个基于scrapy的Gui应用程序，用户输入一个网站的URL，然后点击“爬网”按钮，整个网站就会被抓取并存储在内置的scrapy-db (sqlite)中。如何使用scrapy帮助我抓取网站？

浏览 4提问于2012-03-09得票数 0

1回答

如何从网站上抓取二级网页

、、、、

我想问你如何使用python + Beautiful soup或Scrapy来抓取网页，如果有2个级别的页面，一个简短的描述+一个到职位帖子完整细节的链接，那么它包含了例如招聘公告？我需要从招聘公告的标题中抓取数据，然后更深入地提取完整的描述，并将这些数据添加到数据库或文本文件中？问题是转到第二层，在那里完整的描述和获得完整的细节，包括图像链接，如果存在的话…有人这么做过吗？提前谢谢你。

浏览 0提问于2019-09-26得票数 1

1回答

剪贴式更改的对象请求

、、、

获得了以下代码： from scrapy.http import Request, FormRequest from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.http import FormRequest import subprocess class LoginSpider(CrawlSpider): name = 'logi

浏览 0提问于2018-02-01得票数 0

1回答

如何构建一个独立的Scrapy Spider？

、、

很抱歉转载，我之前帖子的标题令人困惑。在爬行器示例(下面的代码)中，我如何使用"pyinstaller“(或其他安装程序)来构建可执行文件(如myspidy.exe)，以便最终用户不需要在windows环境中安装scrapy和python？安装了Python和Scrapy之后，可以通过执行命令"scrapy crawl quotes“来运行爬行器。最终用户会在没有预装Python和Scrapy的Windows pc上运行download和“myspidy.exe”。非常感谢！ import scrapy class QuotesSpider(scrapy.Spider):

浏览 0提问于2018-05-16得票数 1

1回答

将命令从批处理文件解析并运行到交互式shell中

、、、

我正在尝试从批处理文件中运行scrapy shell，到目前为止工作的是启动批处理文件和交互式shell。然后，我希望能够将命令解析到scrapy控制台(在shelp()之后的命令行)。我的代码： call C:/Users/<user_name>/Anaconda3/Scripts/activate.bat scrapy shell <url> < printing log stats > 2020-03-09 13:38:33 [asyncio] DEBUG: Using selector: SelectSelector In [1]: #

浏览 4提问于2020-02-28得票数 0

1回答

django获取我的站点上所有应用程序的查询数量？

、、

如何获取我的站点上所有应用程序的查询次数？我用过scrapy和django。通过scrapy，我尝试请求所有的urls，而通过django中间件，我认为我可以计算查询的数量。但在提出请求时，我面临的错误是 1)我无法为django配置scrapy设置。 2)我试着使用管理命令，但没有帮助，因为它是一个残破的项目，而不是django应用程序？那么，如何才能请求站点的所有urls并记录每个应用程序的查询次数呢？

浏览 0提问于2014-08-04得票数 0

1回答

将图像路径名保存在数据库中

、

我已经用Scrapy成功地抓取了一个网站上的图像数据，并将图像保存在一个文件夹中。但我想将图像的路径名保存在mysql数据库中。就像下面的爬行器的结果一样，我想将数据“路径”转发到管道，但我不知道如何选择它 'images': [{'checksum': '75873dcc0944e29787525197648aa1a6', 'path': 'full/91e6d13e3ad32def287f98199c8bbe1915c71773.jpg', 'url

浏览 11提问于2019-08-05得票数 1

回答已采纳

1回答

Scrapy如何过滤爬行的urls？

我想知道Scrapy如何过滤那些爬行的urls？它是否存储了所有爬行在类似crawled_urls_list中的url，当它获得一个新的url时，它会查找列表以检查url是否存在？ CrawlSpider(/path/to/scrapy/contrib/spiders/crawl.py)过滤部分的代码在哪里？非常感谢!

浏览 5提问于2012-11-29得票数 3

回答已采纳

4回答

允许重复下载与刮除图像管道？

、、

请参阅下面的代码示例版本，它使用Scrapy Image管道从站点下载/刮取图像： import scrapy from scrapy_splash import SplashRequest from imageExtract.items import ImageextractItem class ExtractSpider(scrapy.Spider): name = 'extract' start_urls = ['url'] def parse(self, response): image = Imageextr

浏览 0提问于2017-07-18得票数 2

回答已采纳

3回答

Ubuntu找不到Scrapy

、、

我使用的是Ubuntu14.04，安装了Python3.4和Python2.7。我用 sudo pip install scrapy 如果我试图重新运行这个，终端输出： Requirement already satisfied (use --upgrade to upgrade): scrapy in /usr/local/lib/python2.7/dist-packages 但当我尝试开始一个新的项目时，我会发现： $ scrapy startproject tutorial bash: /usr/local/bin/scrapy: No file or directory of thi

浏览 6提问于2015-08-06得票数 2

回答已采纳

1回答

无法通过管道重命名下载的映像而不使用item.py

、、、、

我创建了一个脚本，使用python的scrapy模块从一个洪流站点下载并重命名多个页面上的电影图像，并将它们存储在桌面文件夹中。在下载这些图像并将其存储在桌面文件夹中时，我的脚本也是一样的。然而，我现在所要做的是动态地重命名这些文件。由于我没有使用item.py文件，而且我也不希望这样做，我很难理解pipelines.py文件的逻辑将如何处理重命名过程。我的蜘蛛(It downloads the images flawlessly)： from scrapy.crawler import CrawlerProcess import scrapy, os class YifySpider(s

浏览 0提问于2019-02-17得票数 0

回答已采纳

1回答

Python抓取使用scrapy

、、、

因此，我已经看到了如何使用scrapy的教程，现在我可以访问给定页面中的链接。但我想要做的是，给定一个页面，我想收集它的数据(元数据和摘要)，我还想访问该页面中的链接并收集它们的数据。这是我到目前为止的代码(还没有收集到数据) from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.spider import BaseSpider from scrapy.http import Request

浏览 0提问于2015-03-17得票数 0

2回答

Scrapy:修改响应中的元素和字段

、、、

我对Scrapy、Python和面向对象编程比较陌生，所以如果我遇到任何术语错误或不清楚的地方，我深表歉意。我正在尝试编写一个爬虫，当它从响应中抓取项目时，它还将创建响应的修改版本以保存到文件中。例如，我正在尝试修改“src”链接，使其指向本地保存的抓取文件。目前，我正在使用Scrapy的选择器抓取数据，并使用lxml修改响应。但是，我希望使用Scrapy的方法来进行修改，而不是使用lxml，因为同时使用Scrapy选择器和lxml实际上意味着在响应中查找相同的元素需要加倍的代码。我在下面添加了一些代码来说明我的观点。一切都发生在爬虫解析函数中。 def parse(self，respo

浏览 2提问于2015-07-19得票数 6

1回答

无法使用python scrapy ImagePipeline访问process_item

、

我正在尝试使用python scrapy从网站源获取一些图像。除了我的流水线中的process_item方法没有被访问之外，整个过程都运行得很好。以下是我的文件： Settings.py： BOT_NAME = 'dealspider' SPIDER_MODULES = ['dealspider.spiders'] NEWSPIDER_MODULE = 'dealspider.spiders' DEFAULT_ITEM_CLASS = 'dealspider.items.DealspiderItem' ITEM_PIPEL

浏览 4提问于2013-01-29得票数 1

回答已采纳

5回答

如何使用py文件运行scrapy

、

嗨，我在scrapy上工作，我用scrapy startproject example创建了一个scrapy文件夹，并编写了爬行器来抓取url中的所有数据，我已经使用scrapy crawl spider_name命令运行了爬行器，它工作得很好，能够提取数据。但是我有一个要求，我需要用创建的单个爬虫文件运行scrapy，我的意思是单个py文件，类似于 python -u /path/to/spider_file_inside_scrapy_folder_created.py 在创建包含spider.py文件的scrapy项目文件夹后，是否可以在没有scrapy crawl命令的情况下运行爬行

浏览 1提问于2012-09-29得票数 8

回答已采纳

1回答

提交表单后，抓取下载MIME类型文件

、、、

在页面中，用户必须键入一些字段才能下载最重要的西班牙广播公司的频道时间表。一旦用户填写表单并单击Exportar按钮，浏览器将自动开始下载扩展名为formato下拉列表的文件。现在，从我的Chrome浏览器可以很容易地获得文件。但是，我想用一个Scrapy脚本自动完成这个任务，下面您可以找到我到目前为止所做的工作： from scrapy.item import Item, Field from scrapy.http import FormRequest from scrapy.spiders import Spider from scrapy.selector import Select

浏览 2提问于2017-01-05得票数 0

回答已采纳

1回答

下载图片会导致值重复并给出错误

、

Spider运行正常，并将数据保存在mongodb中，但突然开始在数据库、json和csv中保存重复的值，我删除了下载图像的代码，它工作得很好，但我需要图像，有人能帮我吗？提前谢谢。 items.py 导入scrapy class BucketItem(scrapy.Item): # define the fields for your item here like: store_name = scrapy.Field() category = scrapy.Field() sub_category = scrapy.Field() name = scrapy.Field() unit = s

浏览 0提问于2019-11-05得票数 0

1回答

如何将ScrapyFileLogObserver文件发送到我的电子邮件

、、

我想在蜘蛛关闭的时候给自己发一封电子邮件我看一下这个，我就能拿到邮件。但是我发现当爬虫出错时，它会写failure.getTraceback() 源代码的一部分： def spider_error(self, failure, response, spider): self.files[spider.name + '.log'].write(failure.getTraceback()) self.num_errors += 1 但是我想让它可以像这样把控制台日志发送到我的电子邮件中： 2014-08-28 00:30:33+0000 [scrapy] INF

浏览 2提问于2014-08-28得票数 1

2回答

为什么scrapyd抛出："'FeedExporter‘对象没有属性’槽‘“异常？

、、

我遇到了这样的情况:当从命令行使用我的scrapy代码时运行良好，但是当我在部署( scrapyd )和使用scrapyd进行调度之后使用相同的蜘蛛时，它会在"scrapy.extensions.feedexport.FeedExporter“类中抛出错误。一是初始化"open_spider“信号时二是初始化"item_scraped“信号和最后一次"close_spider“信号 1."open_spider“信号误差 2016-05-14 12:09:38 [scrapy] INFO: Spider opened 2016-

浏览 3提问于2016-05-14得票数 4

1回答

不带文件扩展名的图像的抓取和下载

、、、

我正在尝试使用Scrapy的图像/文件pipeline来下载不带任何文件扩展名的图像。例如，此图像：正如您所看到的，图像加载得很好，而且我能够抓取Scrapy中的url。但是，将url传递给image_urls或file_urls不会产生任何下载的图像。我试过将".jpg“附加到url的末尾，但不起作用。我如何下载这些类型的图像？编辑：我已经启用了ImagePipeline。使用适当的文件扩展名从其他URL下载可以正常工作，并且我可以看到图像被下载到指定的文件夹中。

浏览 2提问于2018-11-13得票数 0

2回答

从url列表下载图片(Scrapy每个url发送2个请求)

、、、

因此，上周我运行了一个爬虫，并生成了一个CSV文件，其中列出了我的项目所需的所有图像URL。在将CSV读入python列表后，我不知道如何使用Scrapy通过管道下载它们。我已经尝试了很多事情，最近我开始工作，但它很难看，也不太正确。对于我列出的10个图像URL，Scrapy用20个请求完成了刮取，甚至正确地存储了10个图像。我可能在做一些愚蠢的事情，因为我对Scrapy相当陌生，但我已经阅读了大多数Scrapy的文档，并且在google结果方面做了不少尝试和错误。我只想让Scrapy每个URL发送一个请求并下载相应的图像。任何帮助都将不胜感激。我已经用头撞了三天了。我的代码： spider

浏览 8提问于2020-06-28得票数 1

回答已采纳

2回答

Python Scrapy字典项目

、、、、

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我假设爬行器应该不断地抓取每个URL，将HTML转换为纯文本，然后将每个字符串划分为列表项，创建一个列表，然后只向该列表添加以前没有添加过的项。但是，同时，它也应该知道哪些条目已经添加到列表中，以及它们的位置，当它抓取一个与列表中已经存在的单词相同的单词时，记住它的URL并将其添加到包含URL的列中。我已经创建了一个爬行器(如下所示)，它列出了所有URL和每个URL处找到的所有纯文本，但是我的编程技能还不够

浏览 12提问于2020-04-28得票数 0

1回答

如何为Scrapy实现自己的存储后端？

、

我想要保存抓取结果到redis饲料导出的方式。那么，如何为Scrapy实施自己的存储后端呢

浏览 0提问于2017-05-24得票数 0

1回答

使用scrapy splash对抓取速度有显著影响吗？

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳

1回答

抓取图片的url

、、、

如何使用python.please帮助me.this中的scrapy从网站获取图像url是我的代码 from scrapy.spiders import CrawlSpider, Rule #from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.contrib.linkextractors import LinkExtractor from scrapy.item import Item, Field class MyItem(Item): url= Field() class someS

浏览 1提问于2016-03-09得票数 3

1回答

如何将刮过的数据写入Scrapy中的CSV文件？

、、、、

我试图通过提取子链接和它们的标题来抓取一个网站，然后将提取的标题及其相关链接保存到CSV文件中。我运行以下代码，将创建CSV文件，但它是空的。有什么帮助吗？我的Spider.py文件如下所示： from scrapy import cmdline from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor class HyperLinksSpider(CrawlSpider): name = "linksSpy"

浏览 1提问于2017-01-06得票数 1

回答已采纳