我有一个抓取项目,其蜘蛛如下所示。当我使用以下命令运行此爬行器时,爬行器可以正常工作:scrapy crawl myspider
class MySpider(BaseSpider):
name = "myspider"
def parse(self, response):
links = SgmlLinkExtractor().extract_links(response)
for link in links:
item = QuestionItem()
item['u
我正在尝试将网站源代码保存到我的MySQL数据库中。使用urllib成功检索到源文件。下一步,保存数据。与数据库的连接没有问题,问题出在源代码的保存上,因为当我从insert语句中删除源代码时,一切都很正常。
# get the webpage source
f = urllib.urlopen(row_urls['url'])
source_fetched = f.read()
f.close()
# Save the webpage source
scrapy_url_id = row_urls['id']
我的包裹依赖于PyMySQL。
问题:
然后,我将包上传到test.pypi.org并尝试安装pip install -U -i https://testpypi.python.org/pypi scrapy-mysql-pipeline,我的代码中出现了一个异常,因为test.pypi.org上的PyMySQL版本是0.6.3-rc1,而不是当前的0.7.11 my setup.py:
import setuptools
import os
if "PY_DEV" in os.environ:
import pypandoc
with open('R
我使用Scrapy2.4.x pipeline.py将数据集写入远程MySQL 5.7.32服务器。在某些情况下,错误会发生,脚本会抛出一个异常--这是可以的。
for selector in selectors:
unit = unitItem()
try:
unit['test'] = selector.xpath('form/text()').extract_first()
if not unit['test']:
self.logger.err
所以我在玩Scrapy,它是一组类,允许你进行web抓取,我想把一些数据放到数据库中,但我让truble在扩展scrapy库的同时导入MySQL方法。
下面是我的代码:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request
import MySQLdb
class test(BaseSpider): #if i don't extend the class the MySQL works, but the Sc
我正在尝试掌握Scrapy回调的概念。我一直没有找到任何解决我的问题的答案,因为我需要在两个部分中产生两次项目,并且还可以回调。
这是我的蜘蛛:
import scrapy
import csv
from scrapycrawler.items import DmozItem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor
from scrapy.selector import Selector
f
我面临的问题是,Scrapy代码,特别是管道,给我提供了一个编程错误mysql.connector.errors.ProgrammingError: Not all parameters were used in the SQL statement'。
这是我的管道代码:
import csv
from scrapy.exceptions import DropItem
from scrapy import log
import sys
import mysql.connector
class CsvWriterPipeline(object):
def __init__(
我正在尝试使用scrapy从amazon获取数据,我可以在CSV中获得数据,但是我无法在mysql数据库中插入数据,请找到我的代码,我的蜘蛛是。
import scrapy
from craigslist_sample.items import AmazonDepartmentItem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
class AmazonAllDepartmentSpider(scrapy.Spider)
我尝试在scrapinghub上运行我的爬行器,但运行时出现错误
Traceback (most recent call last):
File "/usr/local/lib/python3.6/site-packages/twisted/internet/defer.py", line 1418, in _inlineCallbacks
result = g.send(result)
File "/usr/local/lib/python3.6/site-packages/scrapy/crawler.py", line 80, in cra
>>>import scrapy
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "D:\SoftWare\Python27\lib\site-packages\scrapy\__init__.py", line 56, in
<module>
from scrapy.spider import Spider
File "D:\SoftWare\Python27\lib\sit
给出你的标准scrapy应用程序:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
def start_requests(self):
urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
for url in urls:
我正在从外部文件运行刮伤蜘蛛,如刮伤文档中的示例所示。我想获取Core提供的统计数据,并在爬行完成后将其存储到mysql表中。
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
from test.spiders.myspider import *
from scrapy.utils.project import get_project_settings
from test.pipelines import MySQLStorePipel
好的,要保持这一点,需要赶着去开会
我正试图在抓取的开始urls,无论我如何尝试,我似乎无法完成它。这是我的代码(蜘蛛)。
import scrapy
import csv
from scrapycrawler.items import DmozItem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor
from scrapy.selector import Selector
from scrapy.
我废弃了新闻网站。每条新闻都有内容,也有很多评论。我有2个项目,一个是内容,另一个是多个评论。问题是内容和多个评论会产生不同的请求。我想要新闻的内容和它的多个评论应该产生或返回作为一起或作为一个。流水线的时间或顺序对我来说并不重要。
在项目文件中:
class NewsPageItem(scrapy.Item):
title = scrapy.Field()
date = scrapy.Field()
hour = scrapy.Field()
image = scrapy.Field()
image_url = scrapy.Field()
t
我正试图使用start_url spider.py从MYSQL表中填充一个SELECT。当我运行“刮伤运行蜘蛛spider.py”时,我没有得到任何输出,只是它没有出现错误。
我已经在python脚本中测试了SELECT查询,并且用MYSQL表中的entrys填充了start_url。
spider.py
from scrapy.spider import BaseSpider
from scrapy.selector import Selector
import MySQLdb
class ProductsSpider(BaseSpider):
name = "Produ
我一直试图抓取一个新闻网站,以便将每一篇文章存储在mySQL数据库中。我的目标是为新闻网站上的每一篇文章存储以下数据:日期、标题、摘要、链接
我一直在尝试不同的方法,并在尝试了几个星期后决定来到这里的堆叠溢出,以得到一个解决我的问题。(注意:我有一个代码可以解决我的问题,但它只是一次取出所有的项目,而不是一个接一个地删除,所以我尝试了一种新的方法,这里是我碰到的地方)
SPIDER.PY
import scrapy
from ..items import WebspiderItem
class NewsSpider(scrapy.Spider):
n
刚刚安装了Scrapy,并希望安装Portia在Python2.7.6 (32位)Windows7 (64位)上连接到IPv4 DNS互联网服务。
在完成版本检查时获取以下输出错误。
C\> scrapy version
:0: UserWarning: You do not have a working installation of the service_identity
module: 'No module named service_identity'. Please install it from <https://pyp
i.python.org/