scrapy 连接mysql_scrapy连接mysql_scrapy mysql测试连接 - 腾讯云开发者社区

、、

首先，我在我的Lubuntu20.04LTS系统上检查了mysql的正确安装。 (scrapy_course) andylu@andylu-Lubuntu-PC:~/Desktop/Misc_python_scripts/Scrapy_Webscraping_Course/books_crawler$ sudo apt install mysql-server Reading package lists... Done Building dependency tree Reading state information... Done mysql-server is alread

浏览 0提问于2020-12-06得票数 0

1回答

ScrapingHub与远程数据库

、、

我正在用start_urls创建一个蜘蛛，并且我想使用MySQL数据库在我的蜘蛛中获取scrapy。现在我想知道是否有可能将scrapy-cloud连接到远程数据库？

浏览 2提问于2015-07-20得票数 2

1回答

无法让MySQL.connector在Python中使用Scrapy

、、

我在使用Scrapy导出刮擦数据到本地MySQL数据库时遇到了问题。无论如何，我试图使用Scrapy制作一个web爬虫，到目前为止，它确实从所需的网站中抓取所需的数据，尽管我无法让它将数据导出到本地MySQL数据库。我一直在阅读Mysql连接器的文档，但是它们的例子让我有点困惑()。我也在谷歌上搜索，希望我能找到一个解决方案，但是我找到的所有结果都使用MySQLdb，我想使用MySQL连接器。这里是我在pipelines.py中的代码 from scrapy.extensions import DropItem import mysql.connector from mysql.conne

浏览 3提问于2014-06-24得票数 0

回答已采纳

1回答

Scrapy仅为某些网站连接到MySQL

、、

当我抓取'‘时，我能够连接到MySQL并将值插入到数据库中。然而，当我试图抓取到一个不同的网站，即''，我失去了连接。我不明白为什么：尝试抓取时出错 2018-01-04 14:38:01 [scrapy.middleware] INFO: Enabled item pipelines: ['properties.pipelines.MysqlWriter'] 2018-01-04 14:38:02 [basic] ERROR: Can't connect to MySQL:mysql://root:password@localhost:3

浏览 0提问于2018-01-05得票数 0

1回答

python中的Scrapy TCP连接超时问题

我在python中的"start_requests“函数中有一个问题。我正在使用代理和端口从另一个网站抓取数据。但是我得到了： scrapy.extensions.logstats信息:已爬网1页(以0页/分钟)，抓取0个项目(以0项/分钟) scrapy.downloadermiddlewares.retry调试:正在重试 (失败2次)：TCP连接超时: 110:连接超时。我的代码是： def get_proxy(self): self.conn = MySQLdb.connect( settings['MYSQL_HOST'],

浏览 25提问于2020-02-06得票数 0

1回答

scrapyd连接到自己的数据库(mysql.db)，而不是127.0.01:3306

、、

我有一个抓取项目，其蜘蛛如下所示。当我使用以下命令运行此爬行器时，爬行器可以正常工作：scrapy crawl myspider class MySpider(BaseSpider): name = "myspider" def parse(self, response): links = SgmlLinkExtractor().extract_links(response) for link in links: item = QuestionItem() item['u

浏览 0提问于2012-10-15得票数 0

1回答

将html源代码保存到

、

我正在尝试将网站源代码保存到我的MySQL数据库中。使用urllib成功检索到源文件。下一步，保存数据。与数据库的连接没有问题，问题出在源代码的保存上，因为当我从insert语句中删除源代码时，一切都很正常。 # get the webpage source f = urllib.urlopen(row_urls['url']) source_fetched = f.read() f.close() # Save the webpage source scrapy_url_id = row_urls['id']

浏览 1提问于2012-10-29得票数 0

回答已采纳

1回答

如何指定包源？

、、、

我的包裹依赖于PyMySQL。问题：然后，我将包上传到test.pypi.org并尝试安装pip install -U -i https://testpypi.python.org/pypi scrapy-mysql-pipeline，我的代码中出现了一个异常，因为test.pypi.org上的PyMySQL版本是0.6.3-rc1，而不是当前的0.7.11 my setup.py： import setuptools import os if "PY_DEV" in os.environ: import pypandoc with open('R

浏览 2提问于2017-10-10得票数 0

回答已采纳

1回答

Scrapy不会连接到MSSQL数据库

、、、

固定我的蜘蛛完全正常工作，我可以将数据导出到JSON、CSV和MongoDB。但是，由于我将处理大量数据，所以我想使用MSSQL。为了找到解决方案，我已经浏览过google和堆栈溢出，但是尽管多次尝试，scrapy还是不会连接到数据库。我的哥哥是一个SQL开发人员，他帮助我建立了一个本地数据库，我可以用它来存储我的数据。所以我很确定数据库(这是非常基本的)的设置是正确的。我目前在我的桌面上本地托管SQL服务器，我的桌面是它的用户名。我没有设置密码，我的数据库名为"kaercher“。我想将数据导出到名为"products_tb“的表中。我已经给了自己完整的sysadmin访

浏览 1提问于2019-08-23得票数 0

回答已采纳

1回答

如何将Python Scrapy扩展的数据插入到MySql数据库表中？

、、、

我正在为Python Scrapy构建一个扩展，以获取爬虫相关的详细信息，如开始时间、结束时间、爬虫状态(打开、关闭或活动)。现在我需要在我的MySql数据库表中存储当前的时间戳。有人能帮我吗？我需要一个代码来连接MySql数据库从剪贴画代码，并做数据库相关的查询，如插入，选择等。谢谢..

浏览 3提问于2013-10-14得票数 0

1回答

scrapy cralwer无法解析mysql数据库中的数据

、、、、

我用scrapy构建了一个web cralwer，并将数据存储到mysql数据库(我从一个url抓取源代码)，现在我想做离线编辑。因此，我创建了sql查询来使用python导出数据，并尝试从中爬行。你能建议一下怎么做吗？事实上，我不能用scrapy来做这件事。我没能用scrapy做到这一点，如果有人有任何建议或类似的项目，可以帮助我。我尝试过使用scrapy查询数据库并将数据存储到 from scrapy.http import HtmlResponse import mysql from mysql.connector import Error import scrapy import

浏览 1提问于2019-08-14得票数 0

1回答

在Scrapy中关闭Python上的MySQL连接？

、、

我使用Scrapy2.4.x pipeline.py将数据集写入远程MySQL 5.7.32服务器。在某些情况下，错误会发生，脚本会抛出一个异常--这是可以的。 for selector in selectors: unit = unitItem() try: unit['test'] = selector.xpath('form/text()').extract_first() if not unit['test']: self.logger.err

浏览 3提问于2020-12-27得票数 0

1回答

Python在每个MySQL上维护SSH MySQL连接

、、、、

我对Scrapy和Python还不熟悉。我可以用SSH凭证连接到我的远程DB上但是..。想要防止此错误发生在每一个项目上被擦伤。错误: 2055:在'127.0.0.1:3306‘丢失到MySQL服务器的连接，系统错误: 10053已建立的连接被主机中的软件中止下面是我的MySQL管道对象 import mysql.connector import sshtunnel class MySQLStorePipeline(object): def __init__(self): with sshtunnel.SSHTunnelForwarder(

浏览 0提问于2018-08-24得票数 0

2回答

如果在python中扩展一个类，如何导入另一个类并使用它？

、、、

所以我在玩Scrapy，它是一组类，允许你进行web抓取，我想把一些数据放到数据库中，但我让truble在扩展scrapy库的同时导入MySQL方法。下面是我的代码： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request import MySQLdb class test(BaseSpider): #if i don't extend the class the MySQL works, but the Sc

浏览 2提问于2011-12-10得票数 0

回答已采纳

2回答

抓取-项目加载器- mysql

、、

我开始学刮痕了。我想使用项目加载器并将一些数据写入MySQL。当我在TakeFirst中对输出处理器使用参数"TakeFirst()“时，下面的代码非常好。但是，我需要将所有条目都输入到MySQL，而不仅仅是第一个条目。当我使用参数"MapCompose()“时，我会得到以下与MySQL相关的错误消息：错误1241:操作数应包含1列如何修改代码才能将所有条目写入MySQL？ test_crawlspider.py： import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scra

浏览 7提问于2016-06-08得票数 0

回答已采纳

1回答

将图像路径名保存在数据库中

、

我已经用Scrapy成功地抓取了一个网站上的图像数据，并将图像保存在一个文件夹中。但我想将图像的路径名保存在mysql数据库中。就像下面的爬行器的结果一样，我想将数据“路径”转发到管道，但我不知道如何选择它 'images': [{'checksum': '75873dcc0944e29787525197648aa1a6', 'path': 'full/91e6d13e3ad32def287f98199c8bbe1915c71773.jpg', 'url

浏览 11提问于2019-08-05得票数 1

回答已采纳

1回答

如何安排蜘蛛每5分钟跑一次？

、、、

几天来，我一直在想如何安排我的爬行蜘蛛，却没有任何运气。(我尝试了所有东西，从Windows到scrapy lib，但是在我的MAIN.PY上什么都没成功) (我的主要目标是安排我的蜘蛛每5分钟从NewsSpider到mySQL news_db数据库收集数据) 请看我的脚本，因为它有一点修改，并改变它，如果需要。我真的希望这件事能成功。 MAIN.PY from scrapy import cmdline cmdline.execute("scrapy crawl news".split()) NEWS_SPIDER.PY import scrapy from ..items

浏览 3提问于2020-04-06得票数 1

1回答

Scrapy和MySql:存储列表

、、、、

我目前正在使用Scrapy进行一个小项目，在这个项目中，我将所收集的数据存储到MySql中。问题是我刮过的数据不是1比1，我提供了下面MySql的源代码和图像。问题:当将数据发送到MySql时，只保存每个列表值的第一个值. main() import scrapy from ..items import CsgoProjectItem item = CsgoProjectItem() class ListOfSkins(scrapy.Spider): name = "list_of_skins" start_urls = ['https://cs

浏览 0提问于2020-06-24得票数 1

回答已采纳

1回答

试图理解Scrapy回调

、、、、

我正在尝试掌握Scrapy回调的概念。我一直没有找到任何解决我的问题的答案，因为我需要在两个部分中产生两次项目，并且还可以回调。这是我的蜘蛛： import scrapy import csv from scrapycrawler.items import DmozItem from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.selector import Selector f

浏览 0提问于2015-01-27得票数 0

1回答

Scrapy ProgrammingError:不是所有参数都在SQL语句中使用

、、、、

我面临的问题是，Scrapy代码，特别是管道，给我提供了一个编程错误mysql.connector.errors.ProgrammingError: Not all parameters were used in the SQL statement'。这是我的管道代码： import csv from scrapy.exceptions import DropItem from scrapy import log import sys import mysql.connector class CsvWriterPipeline(object): def __init__(

浏览 3提问于2015-01-21得票数 0

回答已采纳

1回答

如何将数据从scrapy插入到mysql

、、、、

我正在尝试使用scrapy从amazon获取数据，我可以在CSV中获得数据，但是我无法在mysql数据库中插入数据，请找到我的代码，我的蜘蛛是。 import scrapy from craigslist_sample.items import AmazonDepartmentItem from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor class AmazonAllDepartmentSpider(scrapy.Spider)

浏览 6提问于2014-12-05得票数 1

回答已采纳

1回答

mysql.connector.errors.InterfaceError: 2003:无法连接到Scrapinghub上'127.0.0.1:3306‘上的MySQL服务器

、、、

我尝试在scrapinghub上运行我的爬行器，但运行时出现错误 Traceback (most recent call last): File "/usr/local/lib/python3.6/site-packages/twisted/internet/defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "/usr/local/lib/python3.6/site-packages/scrapy/crawler.py", line 80, in cra

浏览 34提问于2019-07-28得票数 1

回答已采纳

1回答

使用MySQL在表中显示长货币名称

、、、

我正在使用Scrapy制作一个web刮刀，它可以将与欧元相比的货币换算率进行比较，并希望在MySQL表中显示汇率、货币名称和名称的缩短版本。我已经做到了，所以利率和缩短的名字都可以放在桌子上，但是当我试着用全币的名字时，表中唯一的东西就是第一个结果。这是我的密码：铲运机本身： import scrapy from ..items import EurotocurrencyItem class CurrencySpider(scrapy.Spider): name = 'currency' start_urls = [ 'https:/

浏览 1提问于2020-05-03得票数 0

回答已采纳

1回答

抓取大容量插入

、

我有一个爬虫，从多个网站获取数据，并更新到mysql表的信息。我使用scrapy编写的crawler.The爬虫将插入/更新大量的列。是否可以批量插入/更新scrapy中的项目？

浏览 0提问于2015-02-07得票数 0

1回答

抓取抓取多个页面，提取数据并保存到mysql中。

、、

嗨，有人能帮我，我似乎被困住了，我正在学习如何爬行和保存到mysql我们刮刮。我正在尝试抓取抓取所有的网站网页。从"start_urls“开始，但它似乎并不会自动爬行所有页面，而是使用pipelines.py保存到mysql中。当f= open("urls.txt")中提供urls时，它也会抓取所有页面，并使用pipelines.py保存数据。这是我的密码 test.py import scrapy from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.

浏览 6提问于2015-03-30得票数 0

回答已采纳

1回答

在scrapy中连接爬行器

、、

我想在Scrapy中连接多个爬虫，这样一个蜘蛛的输出就可以供给另一个蜘蛛。我知道Scrapy用于连接解析函数和使用请求的Meta参数来通信项的方式。 class MySpider(scrapy.Spider): start_urls = [url1] def parse(self, response): # parse code and item generated yield scrapy.Request(url2, call_back=self.parse2, meta={'item': item}) def par

浏览 5提问于2016-05-13得票数 0

1回答

如何在mac上的virtualenv上安装mysqldb

、、、

我使用Scrapy，我试图通过brew install mysql安装mysql，但是我得到了这样的警告： Warning: mysql-5.7.12 already installed 如果已经安装了mysql，为什么我在/etc/init.d/mysql中看不到它

浏览 13提问于2016-05-30得票数 0

1回答

刮擦超时和Twisted.Internet.Error

、、、、

使用代理运行Scrapy，但有时爬行在运行结束时会遇到下面的错误，导致爬行完成时间延迟10+秒。如果Scrapy在任何时候都遇到了这些错误，那么当检测到它时，它就会被完全忽略/立即传递，这样它就不会浪费时间拖延整个爬虫了？ RETRY_ENABLED = False (已在settings.py中设置)。请求中的urls列表。许多设置为https://而不是http的代理都想在案例中提及，尽管几乎所有的情况下https都能工作，所以我怀疑这完全是关于https与http正在设置的关系。但仍然得到：错误1： 2019年-01-20 20:24:02 scrapy.core.scrape

浏览 0提问于2019-01-20得票数 1

回答已采纳

1回答

我不能用我的刮痕1.0.3

、

>>>import scrapy Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\SoftWare\Python27\lib\site-packages\scrapy\__init__.py", line 56, in <module> from scrapy.spider import Spider File "D:\SoftWare\Python27\lib\sit

浏览 2提问于2015-09-21得票数 0

1回答

如何从外部应用程序获取scrapy的urls

、、

给出你的标准scrapy应用程序： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/', ] for url in urls:

浏览 3提问于2017-05-26得票数 0

1回答

向from_crawler脚本添加scrapy.xlib.pydispatch方法

、、

如果你发现这个问题研究得很好，并且对你有用的话，一定要投赞成票。其他人也应该有同样的机会找到有用的职位。不久前，我在使用windows上用python编写的scrapy蜘蛛时，有了这个功能代码，现在它出现在使用scrapy爬行器时。 ScrapyDeprecationWarning:不再推荐从scrapy.xlib.pydispatch导入，并且在将来的Scrapy版本中不再支持。如果您只想连接>信号，则使用from_crawler类方法，否则在需要时直接导入py分派。参见：从>scrapy.xlib.pydispatch导入调度程序我查看了他们的github论坛页面以

浏览 4提问于2019-10-08得票数 1

1回答

使用scrapy抓取Walmart.com并获取“错误页无法连接到服务器”

、、

我是新来的，并取消了一些网站(如亚马逊，百思买)，并取得了成功。我一直在试图打开一个刮破的外壳内的www.walmart.com。 $ scrapy shell "www.walmart.com" 2018-08-01 13:47:18 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: scrapybot) 2018-08-01 13:47:18 [scrapy.utils.log] INFO: Versions: lxml 4.2.1.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1

浏览 1提问于2018-08-01得票数 0

1回答

抓取管道mysql错误

、、

当我编写Scrapy\pipeline，然后尝试使用scrapy crawl dmoz时，出现了一个错误： File "F:\Python\lib\site-packages\scrapy\utils\misc.py", line 42, in load_object raise ImportError("Error loading object '%s': %s" % (path, e)) ImportError: Error loading object 'tutorial.pipelines.Tutorialpipeline&#

浏览 3提问于2015-03-19得票数 0

1回答

抓取请求，shell获取()中的蜘蛛

、、、

我试图到达一个特定的页面，让我们称之为http://example.com/puppers。当直接使用scrapy shell或标准scrapy.request模块(结果在<405> HTTP中)连接时，无法到达此页面。但是，当我首先使用scrapy shell 'http://example.com/kittens'，然后使用fetch('http://example.com/puppers')时，它会工作，我得到了一个<200> OK HTTP代码。现在我可以使用scrapy shell提取数据。我尝试在我的脚本中实现这一点，方法

浏览 1提问于2018-07-17得票数 1

回答已采纳

1回答

如何从刮风跑中获得统计数据？

、、、

我正在从外部文件运行刮伤蜘蛛，如刮伤文档中的示例所示。我想获取Core提供的统计数据，并在爬行完成后将其存储到mysql表中。 from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from test.spiders.myspider import * from scrapy.utils.project import get_project_settings from test.pipelines import MySQLStorePipel

浏览 2提问于2015-01-02得票数 2

回答已采纳

0回答

爬虫框架scrapy测试运行时出错，求解决？

、、、、

安装成功scrapy框架后，在pycharm终端里面输入 scrapy bench 命令后，出现由于目标计算机积极拒绝，无法连接。的问题，这个怎么解决，

浏览 47提问于2024-02-21

1回答

如何从抓取的数据中可视化数据

、、

我用Scrapy做了一个网络搜索器，它从收集汇率数据，并通过我的SQL在表中显示数据(货币缩写名称、货币全名和汇率)。我想要做的是，每次利率上升或下降，与上次擦伤相比，都会有一个列添加到货币中，说明它增加或减少了多少百分比。我该怎么做呢？这是我到目前为止所拥有的代码： currency_scraper.py： import scrapy from ..items import EurotocurrencyItem class CurrencySpider(scrapy.Spider): name = 'currency' start_urls = [

浏览 1提问于2020-05-03得票数 0

1回答

刮取Start_Urls

、、、、

好的，要保持这一点，需要赶着去开会我正试图在抓取的开始urls，无论我如何尝试，我似乎无法完成它。这是我的代码(蜘蛛)。 import scrapy import csv from scrapycrawler.items import DmozItem from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.selector import Selector from scrapy.

浏览 2提问于2015-01-24得票数 1

回答已采纳

1回答

如何处理英语词典？

、

我正在用scrapy 3制作刮刀，我的脚本应该是刮，这是一个公司目录。有时候，scrapy找不到一个条目字段(电子邮件或网站)，因为目录没有发布这些字段。我正试图处理这种异常，但作为一个新手，这对我来说很复杂。我试着用一些“如果”来解决这个问题。但是我的问题是在我的pipeline.py文件中处理它，在这里我将值添加到MYSQL数据库中。这是我的蜘蛛文件： # -*- coding: utf-8 -*- import scrapy from scrapy import Request from ..items import ScrapingEntreprisesItem from ur

浏览 0提问于2019-08-13得票数 0

回答已采纳

1回答

Scrapy连接不同的物品以获得收益

、

我废弃了新闻网站。每条新闻都有内容，也有很多评论。我有2个项目，一个是内容，另一个是多个评论。问题是内容和多个评论会产生不同的请求。我想要新闻的内容和它的多个评论应该产生或返回作为一起或作为一个。流水线的时间或顺序对我来说并不重要。在项目文件中： class NewsPageItem(scrapy.Item): title = scrapy.Field() date = scrapy.Field() hour = scrapy.Field() image = scrapy.Field() image_url = scrapy.Field() t

浏览 2提问于2017-01-29得票数 1

回答已采纳

1回答

Python从mysql中填充start_urls

、、、

我正试图使用start_url spider.py从MYSQL表中填充一个SELECT。当我运行“刮伤运行蜘蛛spider.py”时，我没有得到任何输出，只是它没有出现错误。我已经在python脚本中测试了SELECT查询，并且用MYSQL表中的entrys填充了start_url。 spider.py from scrapy.spider import BaseSpider from scrapy.selector import Selector import MySQLdb class ProductsSpider(BaseSpider): name = "Produ

浏览 1提问于2013-11-21得票数 9

回答已采纳

3回答

在一种不干净的方式中失去了擦伤的连接。跨单个域不一致

、、、、

我创建了一个基本的爬行器，用于从totaljobs.com中抓取一小部分职务列表。我已经设置了蜘蛛与一个单一的开始URL，以打开我感兴趣的工作列表。在那里，我对结果的每一页分别发出一个请求。在每个请求中，我启动一个单独的请求，调用一个不同的解析方法，以处理单个作业URL。我发现，start URL和所有结果页面请求都被处理得很好-- scrapy连接到站点并返回页面内容。但是，当它试图跟踪每个单个作业页的URL时，scrapy无法形成连接。在我的日志文件中，它声明： [<twisted.python.failure.Failure twisted.internet.error.Conn

浏览 0提问于2018-01-18得票数 1

1回答

Scrapy部署算法

、、、、

请帮我理清思路：我想在EC2上为我的项目设置一个爬网。我正在使用带有MySQL的Scrapy来显示结果。另外，我想为预定的爬行(例如每天)实现cron；所以我的理解是:我用所有必要的包(python、mysql、scrapy等)设置EC2；然后我创建我的爬虫，我测试它们；当它们工作时，我设置cron让爬行在没有我的情况下发生。我说的对吗，或者我可能漏掉了什么？我是否需要使用Scrapyd，或者它只是一个选项？

浏览 11提问于2017-02-26得票数 0

回答已采纳

1回答

Python和Scrapy，并试图将数据刮入MariaDB/MYSQL数据库

、、、、

我知道下面的代码是未完成的，但我所做的只是将这些结果输入到我的MARIADB中。我花了太多的时间仔细梳理Stackoverflow，寻找这个答案。代码工作得很好，我可以手动添加最后的条目，以便在数据库中输入带有静态信息的内容，但是我已经在for循环中尝试了所有可能的方法。我只需要最后几行代码就可以解决这个问题，我相信我可以继续进行最后的数据抓取。 import scrapy import mysql.connector from scrapy.selector import Selector mydb = mysql.connector.connect( host="local

浏览 3提问于2020-07-07得票数 1

回答已采纳

1回答

PYTHON从项插入MySQL

、、、、

我一直试图抓取一个新闻网站，以便将每一篇文章存储在mySQL数据库中。我的目标是为新闻网站上的每一篇文章存储以下数据:日期、标题、摘要、链接我一直在尝试不同的方法，并在尝试了几个星期后决定来到这里的堆叠溢出，以得到一个解决我的问题。(注意:我有一个代码可以解决我的问题，但它只是一次取出所有的项目，而不是一个接一个地删除，所以我尝试了一种新的方法，这里是我碰到的地方) SPIDER.PY import scrapy from ..items import WebspiderItem class NewsSpider(scrapy.Spider): n

浏览 3提问于2020-03-17得票数 0

1回答

如何捕获在MySQL数据库中保存项目时出现刮擦异常？

、、、

我每隔24小时就会在scrapy里跑一只蜘蛛。从爬行器中抓取的项存储在MySQL数据库中。为了只收集唯一项，我设置了表结构来使重复的记录无效。因此，在大多数情况下都会出现重复条目错误。我需要捕获所有这些，并防止它们被打印到控制台/终端上。下面是错误的快照。 2020-08-27 07:02:39 [scrapy.core.scraper] ERROR: Error processing {'jobtitle': ['E-Learning Specialist'], 'joburl': ['https://******/e-learni

浏览 23提问于2020-08-28得票数 0

1回答

scrapy-elasticsearch管道仅用于特定项目

、、、

我想在我的scrapy项目中使用scrapy-elasticsearch管道。在这个项目中，我有不同的项目/模型。这些项目存储在mysql服务器中。此外，我还想在ElasticSearchServer中为其中一项建立索引。然而，在文档中，我只找到了索引所有已定义项的方法，如下面的settings.py中的代码示例所示。 ELASTICSEARCH_INDEX = 'scrapy' ELASTICSEARCH_TYPE = 'items' ELASTICSEARCH_UNIQ_KEY = 'url' 就像你可以看到的那样，ELASTICSEAR

浏览 9提问于2019-06-04得票数 0

回答已采纳

2回答

如何从Start_urls数据库读取Scrapy Start_urls？

、、

我正在尝试读取和写入Mysql的所有输出。当我的蜘蛛开始抓取时，我想从MySQL数据库中获取所有的URL，所以我尝试创建一个函数来读取数据。 readdata.py: import mysql.connector from mysql.connector import Error from itemadapter import ItemAdapter def dataReader(marketName): try: connection = mysql.connector.connect(host='localhost',

浏览 6提问于2020-08-24得票数 2

回答已采纳

1回答

刮擦安装/版本错误

、

刚刚安装了Scrapy，并希望安装Portia在Python2.7.6 (32位)Windows7 (64位)上连接到IPv4 DNS互联网服务。在完成版本检查时获取以下输出错误。 C\> scrapy version :0: UserWarning: You do not have a working installation of the service_identity module: 'No module named service_identity'. Please install it from <https://pyp i.python.org/

浏览 1提问于2014-05-30得票数 2

回答已采纳

1回答

模块：“AttributeError”对象没有特性“”AsyncoreConnection“”

、、、、

我正在使用scrapy-rabbitmq从RabbitMQ获取url到我的scrapy.I中。我在我的settings.py文件中使用了以下内容 RABBITMQ_CONNECTION_PARAMETERS = {"credentials": pika.PlainCredentials('test', 'test'),'host': '10.0.12.103', 'port': 5672} 但我无法连接到rabbitmq .I收到以下错误 AttributeError: 'module

浏览 0提问于2018-10-11得票数 0