尝试在Pycharm中使用Scrapy下载PDF

Scrapy是一个基于Python的开源网络爬虫框架，可以用于快速、高效地抓取网页数据。PyCharm是一种流行的Python集成开发环境（IDE），提供了丰富的功能和工具来支持开发者编写和调试Python代码。

要在PyCharm中使用Scrapy下载PDF，需要按照以下步骤进行操作：

安装Scrapy：在PyCharm中打开终端（Terminal）窗口，运行以下命令来安装Scrapy：
安装Scrapy：在PyCharm中打开终端（Terminal）窗口，运行以下命令来安装Scrapy：
创建Scrapy项目：在PyCharm中创建一个新的Scrapy项目。在终端窗口中，使用以下命令创建项目：
创建Scrapy项目：在PyCharm中创建一个新的Scrapy项目。在终端窗口中，使用以下命令创建项目：
其中，project_name是你要给项目起的名称。
创建Spider：在Scrapy项目中，Spider负责定义如何抓取特定的网页数据。在PyCharm中，可以使用以下命令来创建Spider：
创建Spider：在Scrapy项目中，Spider负责定义如何抓取特定的网页数据。在PyCharm中，可以使用以下命令来创建Spider：
其中，spider_name是你要给Spider起的名称，website_name是你要抓取数据的网站。
编写Spider代码：使用PyCharm打开Spider文件（位于project_name/spiders目录下），在其中编写爬取数据的逻辑。根据需要，可以使用Scrapy提供的各种功能，如XPath选择器、CSS选择器等来定位和提取PDF下载链接。
以下是一个简单的示例代码：
以下是一个简单的示例代码：
这个示例代码通过CSS选择器定位所有以.pdf结尾的链接，并将每个链接返回给Scrapy下载。你可以根据需要修改代码，适应具体的PDF下载需求。
配置项目设置：在Scrapy项目的根目录下，打开settings.py文件，进行必要的配置。例如，可以设置PDF文件下载路径、下载速度限制等。
配置项目设置：在Scrapy项目的根目录下，打开settings.py文件，进行必要的配置。例如，可以设置PDF文件下载路径、下载速度限制等。
运行Scrapy爬虫：在PyCharm中，打开终端窗口，使用以下命令来运行Scrapy爬虫：
运行Scrapy爬虫：在PyCharm中，打开终端窗口，使用以下命令来运行Scrapy爬虫：
其中，myspider是你之前创建的Spider的名称。
下载PDF文件：运行Scrapy爬虫后，Scrapy会自动下载匹配的PDF文件，并保存到指定的下载路径中。

以上就是在PyCharm中使用Scrapy下载PDF文件的步骤。通过使用Scrapy框架和PyCharm IDE，你可以高效地抓取网页数据并下载PDF文件。希望这些信息对你有帮助！如果有其他问题，请随时提问。

刮除文件管道不下载文件

、、

我的任务是建立一个网络爬虫，下载所有的.pdf在一个给定的网站。蜘蛛运行在本地机器和刮擦轮毂上。出于某种原因，当我运行它时，它只下载一些而不是所有的pdfs。通过查看输出JSON中的项就可以看出这一点。我已经设置了MEDIA_ALLOW_REDIRECTS = True，并尝试在scrapinghub上运行它以及在本地运行它。这是我的蜘蛛 import scrapy from scrapy.loader import ItemLoader from poc_scrapy.items import file_list_Item from scrapy.spiders import Crawl

浏览 0提问于2019-07-16得票数 1

回答已采纳

2回答

startproject命令在导入树Mac M1上失败。错误信息是：“在平面命名空间中找不到符号”。

、、、、

我正在尝试使用Scrapy库启动一个项目，用于一个小型的webscraping项目，但是它在导入树模块上失败了。追溯的确切错误是： from .. import etree ImportError: dlopen(/Users/myname/Desktop/scrapy_project/venv/lib/python3.10/site-packages/lxml/etree.cpython-310-darwin.so, 0x0002): symbol not found in flat namespace '_exsltDateXpathCtxtRegister' 我尝试过使用

浏览 9提问于2022-01-26得票数 1

1回答

在不下载正文的情况下检查scrapy中的响应头

、

一些pdf不会以".pdf“结尾，因此，我们只能在检查响应头之后才能知道。我想避免下载这样的pdf。在Scrapy中，在响应完全下载后检查报头很容易。如何下载并检查响应头，然后再下载正文？

浏览 5提问于2018-01-31得票数 4

回答已采纳

1回答

使用scrapy按扩展名类型保存网页上的文件

、、

我对Python非常陌生，我正在尝试使用scrapy下载并保存这个网站中的pdf文件：。以下是我的代码： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class legco(BaseSpider): name = "legc

浏览 3提问于2015-03-09得票数 2

回答已采纳

1回答

使用Scrapy下载.asp网站上的所有pdf文件时出现问题

、

我有一个问题，当下载多个pdf文件在.asp网站上使用Scrapy。这是该网站的网址：https://ceo.maharashtra.gov.in/searchlist/SearchRollPDF.aspx。现在，如果你浏览这个网站，它会向上面的同一个URL发送多个表单请求，并为同一页面生成最新更新的HTML内容。现在，我已经完成了每一步，包括解决验证码，最后，我已经到达了可以下载pdfs的最后一步。当您填写所有表单详细信息(包括验证码)时，您将看到多个下载相同数量的独特pdf文件的链接。这就是我遇到问题的地方。现在，当您单击任何链接时，它会向上面的URL发送一个POST请求，

浏览 0提问于2019-09-14得票数 1

1回答

Scrapy抓取了0个页面，无法下载pdf

、、

我是scrapy的新手。我正在尝试使用scrapy下载这个pdf。我不清楚为什么它不能工作。 import scrapy class Hawaii_spider(scrapy.Spider): name = "hawaii" allowed_domains = ["hawaii.edu"] def parse_listing(self, response): file_urls = ["http://www2.hawaii.edu/~kinzie/documents/CV%20&%20pubs/Kauh

浏览 0提问于2015-11-19得票数 0

1回答

可以完全下载pdf文件吗？

、、、

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所有的pdf文件，但它太慢了。我想知道scrapy filespipelines是否有类似的方法？

浏览 19提问于2019-07-11得票数 0

1回答

在Scrapy中，下载嵌套在已生成项dict的to下的文件

要在Scrapy中下载文件，需要将关键字'fileurls‘添加到生成的条目dict中，并带有要下载的urls的值。但我的文件嵌套在生成的字典的顶层以下的某个地方。一个项目看起来像这样： { "title": "foo", "files": { "drawings": [ { "caption": "bar", "fileurl": "http://foo.com/foo/foo.pdf"

浏览 5提问于2019-02-21得票数 1

回答已采纳

1回答

尝试在Pycharm中使用Scrapy下载PDF

、、、、

我一直在尝试让Scrapy从一个网站下载所有的PDF文件，但是我似乎无法让它真正下载这些文件。爬虫运行得很好，可以访问url的所有页面，但是没有任何内容被下载。我是Python和webscraping的新手，所以我不确定我是忽略了还是不理解如何将别人的问题与我的问题联系起来。我遵循了Scrapy网站和其他网站上的一些教程和演练，但我就是不能理解它。此外，我也想只下载包含"spec_sheet“的文件，如果可能的话(位于下载部分的任何灯的网站，并也命名的PDF是什么，他们在网站上，而不是一个随机的字母和数字字符串，当他们下载。任何帮助都将不胜感激！ import scrapy f

浏览 43提问于2021-01-19得票数 2

1回答

如何使用Scrapy来解析PDF而没有特定的. PDFs链接？

、、、、

我试着下载PDF，但在的情况下，我没有看到任何.pdf链接，这些链接可以被Scrapy抓取。此示例显示了URL .pdf中缺少的。 Scrapy也能够处理getfile.asp链接来检测文件本身吗？这是获取特定页面上所有pdf链接的方法： import scrapy from scrapy.pipelines.files import FilesPipeline class PdfPipeline(FilesPipeline): # to save with the name of the pdf from the website instead of hash def

浏览 1提问于2022-02-10得票数 0

回答已采纳

5回答

为什么我在PyCharm中的zsh没有正确的$PATH？

、、、、

我最近在学习python。我使用在MacBook中运行的PyCharm作为我的编辑器。问题是，当我在我的PyCharm终端中输入类似于scrapy -V的内容时，它会告诉我"zsh: command not found: scrapy"，但是当我在PyCharm之外启动我的终端时，它工作得很好。所以我想知道path var是否正确。然后我在PyCharm终端中尝试了echo $PATH，它返回： /usr/bin:/bin:/usr/sbin:/sbin PyCharm外的终端返回： /Library/Frameworks/Python.framework/Versions/

浏览 2提问于2017-01-31得票数 13

1回答

在下载器中间件中使用meta属性

、、

根据Scrapy文档，人们不能在下载器中间件中使用response.request，因为只有在传递所有其他下载器中间件之后，请求对象才会附加到响应。虽然我注意到在重定向(到验证码页面)的情况下，下载器中间件内部的响应不仅有空的request字段，而且还有空的meta (pycharm调试器告诉我响应与任何请求无关)。我如何强制Scrapy在处理下载器中间件时保留元数据？我已经为每个请求放置了meta=response.meta，但是仍然收到关于缺少元键和缺少元属性的错误。 def start_requests(self): for value in values::

浏览 3提问于2017-08-27得票数 1

回答已采纳

1回答

不同相对url中的刮取液url

、、

我试图提取的pdf以及10k表单(以html格式)使用Scrapy。为了提取它们，我使用以下css选择器：most_recent = response.css("div.view_btn > a::attr(href)").getall()，它按预期返回['/Click/29665', '/Click/19504']。但是pdf和html的url在每个相对的url中。刮伤怎么能得到绝对和“正确”的url？ (“更正”url = ) 我需要url，因为scrapy将响应发送到另一个函数，以便下载pdf文件：yield Request(mos

浏览 1提问于2021-08-28得票数 1

回答已采纳

2回答

在我试图安装的任何python包上，我都不能通过“收集‘不管什么包名’”。

、、

在我试图安装的任何python包上，我都不能通过“收集‘不管什么包名’”.. 我已经安装了python 3.5和pip 7.1.2 这就是我尝试过的.. pip install telethon和..python -m pip install telethon 只是在收集Telethon的时候停止了..之后就不能下载了.. 然后我尝试了：pip -vvv install -U telethon --user 结果是： C:\Users\ACER>pip -vvv install -U telethon --user Collecting telethon Getting page h

浏览 0提问于2020-08-06得票数 2

1回答

刮刮-不能下载文件

、

我无法让Scrapy的文件下载管道工作。日志中没有错误。我遗漏了什么？ **我知道fspider.py还没有完成运行爬行器--我现在只是在使用scrapy parse调试器测试parse_list fspider.py: import scrapy from scrapy.spiders import CrawlSpider class FSpider(CrawlSpider): name = 'fsp' allowed_domains = 'hdr.undp.org' start_urls = ['http://hdr.undp.org

浏览 1提问于2018-02-13得票数 0

回答已采纳

1回答

如何检测服务器上的文件是否已随Python/Scrapy更改

、

这是对问题的跟进. 我想每天下载PDF文件。到目前为止，我的Scrapy代码已经起作用了。现在我想知道PDF文件是否已经改变。有内置的机制吗？，我在文档中找不到提示。如果没有，我将下载相应的PDF文件，并使用此模型将其与前一天的PDF文件进行比较：

浏览 0提问于2019-03-12得票数 0

回答已采纳

1回答

使用Scrapy下载PDF文件

、、、

我正在使用一个Python web抓取框架Scrapy从一个网站抓取pdf文件。网站需要遵循相同的会话，才能允许您下载pdf。它在Scrapy上工作得很好，因为它是自动的，但当我在几秒钟后运行脚本时，它开始给我假的pdf文件，就像我试图在没有会话的情况下直接访问pdf一样。为什么会这样&你知道如何克服这个问题吗？

浏览 1提问于2011-11-13得票数 0

2回答

在Scrapy的Crawlspider中，有没有办法在锚标签中获取文本？

、

我有一个爬虫蜘蛛爬行给定的网站上的某些部门，并下载该网站的pdf。一切都很好，但随着pdf链接，我也需要锚标签内的文本。例如： <a href='../some/pdf/url/pdfname.pdf'>Project Report</a> 考虑到这个锚标签，在回调中我得到了响应对象，以及这个对象，我需要在标签中包含文本，例如'Project Report‘。是否有任何方法可以将此信息与响应对象一起获取。我已经通过https://docs.scrapy.org/en/latest/topics/selectors.html链接，但它不是我正在

浏览 19提问于2019-04-01得票数 1

8回答

如何使用PyCharm调试Scrapy项目

、、、、

我正在使用Python 2.7开发Scrapy 0.20。我发现PyCharm有一个很好的Python调试器。我想用它来测试我的抓取蜘蛛。有谁知道怎么做吗？我尝试过的东西实际上，我尝试将爬行器作为脚本运行。因此，我构建了该脚本。然后，我尝试将我的Scrapy项目作为模型添加到PyCharm中，如下所示： File->Setting->Project structure->Add content root. 但我不知道我还能做什么

浏览 119提问于2014-02-15得票数 107

回答已采纳

1回答

PythonMagick无法打开配置文件

、、、、

我正在PyCharm内64位Windows 10上运行Python3.6。下面是我执行的步骤：打开PyCharm并使用Python3.6作为as启动一个新项目。从Python3.6的轮转文件中下载了PythonMagick：在PyCharm中打开终端并运行：pip install PythonMagick-0.9.19-cp36-cp36m-win_amd64.whl 从这里下载鬼脚本：并运行exe文件。将鬼脚本目录C:\Program Files\gs\gs9.25\bin添加到用户路径环境变量中。现在我从这里运行示例文件 import PythonMa

浏览 0提问于2018-11-12得票数 0

1回答

Python/Scrapy:自定义管道没有使用自定义文件名的效果/下载文件

、

这是我的的后续问题.我想下载PDF并将它们保存在带有自定义文件名的硬盘上。对于自定义文件名，我根据这个pipelines.py在中尝试了以下代码 class PrangerPipeline(object): def process_item(self, item, spider): return item def file_path(self, request, response=None, info=None): original_path = super(PrangerPipeline, self).file_path(request,

浏览 1提问于2019-02-21得票数 3

回答已采纳

1回答

带Scrapy和Python3的pdf的批量下载

、、、、

我想从尼加拉瓜国民议会的网站上大量下载Python3/Scrapy免费下载的pdfs (1843年至1900年的一份旧报纸，名为Gaceta)。我是编程和python的绝对初学者，但我尝试从一个(n个未完成的)脚本开始： #!/usr/bin/env python3 from urllib.parse import urlparse import scrapy from scrapy.http import Request class gaceta(scrapy.Spider): name = "gaceta" allowed_domains = [&

浏览 0提问于2018-05-03得票数 0

回答已采纳

1回答

使用Scrapy从网站查找和下载pdf文件

、

我的任务是使用Scrapy从网站上提取pdf文件。我对Python并不陌生，但Scrapy对我来说是一个非常新的东西。我一直在用控制台和一些基本的爬虫进行实验。我已经找到并修改了下面的代码： import urlparse import scrapy from scrapy.http import Request class pwc_tax(scrapy.Spider): name = "pwc_tax" allowed_domains = ["www.pwc.com"] start_urls = ["http://www.

浏览 0提问于2016-03-21得票数 22

回答已采纳

1回答

如何使用Scrapy解析PDF？

、、、

我想下载在一个网站上找到的所有PDF，例如。我也试图使用规则，但我认为这不是必要的。这是我的方法： import scrapy from scrapy.linkextractors import IGNORED_EXTENSIONS CUSTOM_IGNORED_EXTENSIONS = IGNORED_EXTENSIONS.copy() CUSTOM_IGNORED_EXTENSIONS.remove('pdf') class PDFParser(scrapy.Spider): name = 'stadt_koeln_amtsblatt'

浏览 8提问于2022-02-08得票数 0

回答已采纳

1回答

尝试让Scrapy在Windows中使用Pycharm

、、、

我正在迁移到Windows，并希望让Scrapy与Pycharm一起工作。我尝试添加以下内容： from scrapy.cmdline import execute 以及更改- /Library/Python/2.7/site-packages/scrapy/cmdline.py. It did not like this. 我的输出如下所示- 我也尝试过： from scrapy import cmdline cmdline.execute("scrapy crawl spider".split()) 以及将"script“参数设置为/path_to_pr

浏览 0提问于2017-11-16得票数 0

1回答

如何使用文件管道用Python/Scrapy下载(PDF)文件？

、

在Windows 10上使用Python3.7.2，我很难让Scrapyv1.5.1下载一些PDF文件。我跟踪了，但似乎错过了什么。Scrapy为我提供了所需的PDF URL，但没有下载任何。此外，也不会引发错误(至少)。有关守则是： scrapy.cfg： [settings] default = pranger.settings [deploy] project = pranger settings.py： BOT_NAME = 'pranger' SPIDER_MODULES = ['pranger.spiders'] NEWSPIDER_MODUL

浏览 1提问于2019-02-20得票数 1

回答已采纳

1回答

ValueError:使用媒体管道时请求url: h中缺少的方案

、

我正在尝试从一个网站下载pdf，我遵循刮伤网站提供的指示，但我得到了以下错误： File "/home/joseph/ENV/lib/python3.5/site-packages/scrapy/http/request/__init__.py", line 58, in _set_url raise ValueError('Missing scheme in request url: %s' % self._url) ValueError: Missing scheme in request url: h 2017-09-12 17:47:40 [sc

浏览 2提问于2017-09-12得票数 0

回答已采纳

2回答

使用scrapy查询数据库中的PDF，然后下载它们

、、

我刚接触scrapy和python，所以请记住:) 我正在做一项研究，我需要从政府网站上下载大量公开可用的PDF文档。问题是，大约有11000页的搜索结果，每个页面都有10个PDFS。我想要做的是使用scrapy编写一个脚本： 1)将预定义的搜索参数(例如，关键字、企业名称、起始日期、截止日期等)传递到站点上的文档搜索引擎2)运行搜索查询并获得结果3)自动下载作为查询结果显示的所有PDF(而不仅仅是结果的第一页)到我的机器/将它们上传到google驱动器有什么我可以使用的建议吗？我还没有找到任何可以做到这一点的东西--任何帮助都会非常感谢，这是为了一个非常好的原因！这就是我到目前为止所

浏览 34提问于2020-01-25得票数 0

2回答

需要使用scrapy下载给定网址中的所有.pdf文件

、、

**我尝试运行这个刮取查询，从给定的URL **下载所有相关的PDF。我尝试用“刮擦爬行mySpider”来执行这个命令。 import urlparse import scrapy from scrapy.http import Request class pwc_tax(scrapy.Spider): name = "sec_gov" allowed_domains = ["www.sec.gov"] start_urls = ["https://secsearch.sec.gov/search?utf8=%3F&am

浏览 1提问于2018-10-25得票数 0

回答已采纳

1回答

安装twisted时出错

、、

我正在尝试使用pipenv install scrapy来安装scrapy，但是当涉及到安装依赖项时。它失败了。 Installing scrapy… Adding scrapy to Pipfile's [packages]… Installation Succeeded Installing dependencies from Pipfile.lock (ad2c1d)… ================================ 25/25 - 00:00:06 An error occurred while installing twisted==19.10.0 ;

浏览 0提问于2020-02-29得票数 0

1回答

如何设置Scrapy，Anaconda 3和PyCharm 2018.3.5

、、、

我刚刚开始试验PyCharm 2018.3.5，Anaconda 2018.12，但是我很难用Scrapy建立它。因此，我想请大家提供一些帮助，以使事情顺利进行。为了测试Scrapy是否与PyCharm和Anaconda一起工作，我将遵循下面的PyCharm。情况似乎并非如此。安装是在具有最新更新的Windows 10计算机上完成的。我也包括了安装过程的每一步，希望你能够指出我哪里出错了。在默认位置安装Anaconda。在默认位置上安装PyCharm。安装OpenSSL (对于这个版本的PyCharm，显然需要安装它才能找到软件包；链接：)。我继续启动PyCharm并

浏览 0提问于2019-03-12得票数 0

回答已采纳

2回答

相同文件下载

、

我有一个问题，我的脚本，以便相同的文件名，和pdf正在下载。在没有下载文件的情况下，我检查了结果的输出，得到了唯一的数据。当我使用管道时，它会以某种方式产生副本供下载。这是我的剧本： import scrapy from environment.items import fcpItem class fscSpider(scrapy.Spider): name = 'fsc' start_urls = ['https://fsc.org/en/members'] def start_requests(self): fo

浏览 1提问于2022-07-30得票数 1

回答已采纳

1回答

刮擦不下载图片

、、

开发者环境 Windows 11 PyCharm Community Edition 2021.3.1 Python 3.10 我遵循本教程，我无法使我的脚本工作。 spider.py import scrapy class WikiSpider(scrapy.Spider): name = 'wiki' start_urls = ['https://en.wikipedia.org/wiki/Real_Madrid_CF'] def parse(self, response): urls

浏览 1提问于2022-10-30得票数 -2

1回答

加速抓取python3脚本

、、、、

我想用以下脚本从尼加拉瓜国民议会的网站上大量下载pdfs (1843年至1900年一份名为Gaceta的旧报纸)，其中包括Python3/Scrapy (见原问题)： #!/usr/bin/env python3 # -*- coding: utf-8 -*- # A scrapy script to download issues of the Gaceta de Nicaragua (1843-1961) # virtualenv -p python3 envname # source envname/bin/activate # scrapy runspider gaceta_down

浏览 3提问于2018-05-13得票数 2

回答已采纳

1回答

使用Scrapy:如何从一些提取的链接下载pdf文件

、

我已经创建了一些从网站中提取链接的代码(PDF链接)，现在我需要下载这些PDF文件，但是我很难做到这一点。这是代码： import scrapy class all5(scrapy.Spider): name = "all5" start_urls = [ 'https://www.alloschool.com/course/alriadhiat-alaol-ibtdaii', ] def parse(self, response):

浏览 0提问于2019-07-28得票数 0

回答已采纳

1回答

刮刮CSV

、

我正试着从这个网站上抓取所有的CSV: transparentnevada.com 当您导航到一个特定的代理，即，并点击下载记录，有一个链接到许多CSV。我想下载所有的CSV。我的蜘蛛跑了起来，似乎爬过所有的记录，但没有下载任何东西： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.http import Request class Spider2(CrawlSpider): #name of

浏览 0提问于2017-08-11得票数 1

回答已采纳

1回答

无法导入模块- ImportError:没有命名的模块

、、、、

我已经创建了一个名为engineapp的新应用程序。在这个应用程序中，有一个文件夹engine，它是一个Scrapy项目。当我尝试在top.py文件中从storage应用程序导入模型时，它返回： from storage.models import TopItem ImportError: No module named storage.models 或者类似的问题，当我尝试导入scrapy项目的设置时： from engineapp.engine.engine import settings 它返回： from engineapp.engine.engine import settings

浏览 2提问于2017-07-07得票数 1

1回答

下载PDF文件时出错

我有以下(简化)代码： import os import scrapy class TestSpider(scrapy.Spider): name = 'test_spider' start_urls = ['http://www.pdf995.com/samples/pdf.pdf', ] def parse(self, response): save_path = 'test' file_name = 'test.pdf' self.save_page

浏览 0提问于2018-03-26得票数 0

回答已采纳

3回答

PyCharm pip安装googlesearch提供错误

、

我对网络刮擦很陌生。我正在使用PyCharm IDE和python2.7版本。在PyCharm中安装google包时，我得到了以下错误。错误:找不到满足谷歌搜索要求的版本(来自版本:无)错误:没有找到匹配的发行版在其他包(如BeautifulSoup、Scrapy和Pandas )中，我没有收到这个错误。我尝试升级版本python3.8/ 3.4，但错误仍然存在。如有任何指示/帮助，我们将不胜感激。在此之前，非常感谢您。

浏览 5提问于2019-12-31得票数 2

1回答

如果再次加载FilesPipeline的话，file_urls会刮擦

、

我是新来的。我使用FilesPipeline下载一些.pdf文件。我发现，如果file_urls of Scrapy.Item的值相同，则下载过程将不会重新开始。我需要的是再下载一次。我该怎么解决这个问题。谢谢。

浏览 0提问于2021-07-19得票数 0

回答已采纳

3回答

Scrapy ImportError:无法导入名称xmlrpc_client

、、、

我正在尝试在Mac上使用scrapy，并且我已经成功地使用 pip install scrapy 在航站楼里。在那之后，当我尝试在Pycharm中“导入scrapy”时，遇到了上面的问题： Traceback (most recent call last): File "/Users/ziyuan/PycharmProjects/untitled/en.py", line 1, in <module> import scrape File "/Library/Python/2.7/site-packages/scrapy/__init__.py",

浏览 0提问于2016-02-26得票数 2

0回答

爬虫框架scrapy测试运行时出错，求解决？

、、、、

安装成功scrapy框架后，在pycharm终端里面输入 scrapy bench 命令后，出现由于目标计算机积极拒绝，无法连接。的问题，这个怎么解决，

浏览 47提问于2024-02-21

1回答

Python3.8和Scrapy2.4.1“没有名为我的project>的<名称的模块

、、、、

我遇到了一个我无法解决的问题。我使用scrapy (2.4.1)、python3.8.6和Pycharm。我的项目结构是这样的： project_folder scrapy_project - spiders - **init**.py - my\_spider.py - **init**.py - items.py - middlewares.py - pipeline.py - run.py - settings.py 当我用run从Pycharm运行我的蜘蛛时，它起作用了。当我运行我的蜘蛛使用：刮痕爬行<spider

浏览 6提问于2020-12-10得票数 0

4回答

没有模块名为scrapy时，打开擦伤项目中的py魅力。

、、

我在跟踪这个。我已经生成了Scrapy项目，但是当我在PyCharm中打开这个项目时没有名为scrapy的模块 import scrapy上的错误： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/'

浏览 6提问于2018-01-14得票数 1

1回答

正在为pycharm设置debug scrappy

、、、

我已经使用conda 4.5.11在windows 8.1上安装了scrapy 1.5.1，安装方式如下： conda install -c conda-forge scrapy 我正在运行Pycharm： PyCharm 2018.2.4 (Professional Edition) Build #PY-182.4505.26, built on September 19, 2018 JRE: 1.8.0_152-release-1248-b8 amd64 JVM: OpenJDK 64-Bit Server VM by JetBrains s.r.o Windows 8.1 6.3 我已经

浏览 0提问于2018-10-18得票数 1

2回答

如何阻止Scrapy CrawlSpider访问超过要求的URL？

、

我想写一个抓取pdfs从网站。到目前为止，爬虫在下载pdf方面运行良好。然而，它遵循许多链接的方式，即使我已经尝试了几件事来防止它这样做。据我所知，我可以限制scrapy的Crawlspider使用LinkExtractor的规则来跟踪链接。我已经构建了一个自定义的Linkextractor (也尝试在没有自定义LinkExtractor的情况下直接构建规则，但结果是相同的。) 基本上我只想从页面上拉.pdf，任何链接，这不是以.pdf结束不应该被抓取。到目前为止，下面的代码工作正常，只有pdf使用parse_docs()方法保存，然而，我希望非pdf链接永远不会被发送到parse_d

浏览 28提问于2019-10-08得票数 1

1回答

使用登录的MechanicalSoup :无法使用给定的URL和保存路径执行browser.download_link()

、、、、

我当前正在尝试从内部网络获取一些文件。我设法获取了一些https://example.site/files/testfile.pdf格式的文件的URL。现在，我已经尝试使用以下命令下载此特定文件： import mechanicalsoup browser = mechanicalsoup.StatefulBrowser() for s in site_links ##s = 'https://example.site/file/.../.../file.pdf' ##print(s) browser.download_link(s, "X:/FolderA/Fold

浏览 12提问于2019-10-23得票数 0

回答已采纳

1回答

(Scrapy管道)：无法创建数据库表作为Scrapy管道脚本的一部分

、、、、

我正在尝试创建一个数据库表，作为Scrapy管道脚本的一部分。我的pipelines.py文件如下： import pymysql.cursors class mySQLTest(object): def __init__(self): self.conn = pymysql.connect(host='localhost', user='root', password='',

浏览 0提问于2017-07-06得票数 0

2回答

从file_path重写FilesPipeline

、

我想修改下载文件的输出文件夹，基于，file_path可以被覆盖，我尝试了下面的代码，但似乎我没有工作。顺便说一句，我是刚开始吃蟒蛇的。 pipelines.py from scrapy.pipelines.files import FilesPipeline class secFilesPipeline(FilesPipeline): def file_path(self, request, response=None, info=None): ## start of deprecation warning block (can be removed in the futu

浏览 5提问于2017-09-12得票数 1

回答已采纳

1回答

抓取进入下一页并下载所有文件

、、、、

我对抓取和python很陌生，我可以从URL获得详细信息，我想进入链接并下载所有文件(.htm和.txt)。我的密码 import scrapy class legco(scrapy.Spider): name = "sec_gov" start_urls = ["https://www.sec.gov/cgi-bin/browse-edgar?company=&match=&CIK=&filenum=&State=&Country=&SIC=2834&owner=exclude&Find=Find+

浏览 1提问于2018-11-15得票数 1

回答已采纳