我正在尝试从脚本中运行Scrapy,并一直遵循教程。我遇到了一条错误消息,它声明为Error: ImportError: No module named testspiders.spiders.followall。我一直在寻找解决方案,但还没有找到合适的答案。
实际上,我是通过node.js运行这个python脚本的,它有一个名为的模块,它只允许您使用以下简单代码运行python脚本:
var PythonShell = require('python-shell');
PythonShell.run('my_script.py', function (err
我已经开始编写一个简单的scrapy模块,供mongodb使用。我是python的新手,我写的代码一直存在问题:
congress.py
import scrapy
from scrapy.selector import Selector
from scrapy.loader import ItemLoader
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.http import HtmlResponse
from congres
当我试图运行我的项目时,我在scrapy控制台中得到了错误ModuleNotFoundError: No module named 'scrapy.contrib'。
我注意到python linter在下面划线:
from scrapy.contrib.spiders import CrawlSpider, Rule
这似乎是错误发生在那里。
我该怎么解决这个问题呢?
我是蟒蛇的新手。我有个小项目。我使用的是conda虚拟环境,其中我编写了一个管道类,如下所示:
from cassandra.cqlengine import connection
from cassandra.cqlengine.management import sync_table, create_keyspace_network_topology
from recentnews.cassandra.model.NewsPaperDataModel import NewspaperDataModel
from recentnews.common.Constants import DEF
我在试着用刮痕。我确实安装了刮痕。我的python版本是2.7.9。在安装后,当我在终端中输入scrapy时,它会出现以下错误:
File "/usr/bin/scrapy", line 7, in <module>
from scrapy.cmdline import execute
File "/usr/lib/python2.7/site-packages/scrapy/__init__.py", line 48, in <module>
from scrapy.spiders import Spider
仍然掌握了Scapy,并一直遵循教程。但是,当我运行以下命令时,遇到了一些小问题:NameError: name 'DmozItem' is not defined:
import scrapy
from scrapy import Item, Field
class QuotesItems(scrapy.Item):
area_name = scrapy.Field()
room_type = scrapy.Field()
period = scrapy.Field()
duration_weekly = scrapy.Field()
我有一个非常基本的爬行器,遵循入门指南中的说明,但由于某些原因,尝试将我的项目导入到我的爬行器中会返回一个错误。Spider和items代码如下所示:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from myProject.items import item
class MyProject(BaseSpider):
name = "spider"
allowed_domains = ["website.com"]
这可能是一个重复的问题。我正在尝试运行一个Scrapy爬虫,但无法运行。为什么我得到错误信息"HtmlResponse没有属性urljoin"?如果request_count是3,response_count也是3,那么Scrapy统计数据意味着什么?我的代码在这里。在这件事上如果能有任何帮助,我将不胜感激。
import scrapy
from scrapy.http.request import Request
from scrapy.spiders import BaseSpider
from scrapy.selector import HtmlXPathSelecto
我想登录rediffmail,但是错误是生成的。
exceptions.NameError:未定义全局名称“FormRequest”
这是我的蜘蛛密码:
import scrapy
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
from scrapy.http import Request
from rediffmail.items import RediffmailItem
class MySpider(BaseSpider):
name = 're
我不知道为什么,但最近出了个错误:
File "C:\Users\name\PycharmProjects\splash\project\project\spiders\scrapy.py", line 5, in <module>
class ScrapySpider(scrapy.Spider):
AttributeError: 'module' object has no attribute 'Spider'
我的完整代码:
import scrapy
from scrapy_splash import SplashRe
我在为我的测试修补类时遇到了问题。我正在尝试修补属于Scrapy的东西--一个类。
下面是一些代码:
from scrapy.selector import HtmlXPathSelector
from mock import MagicMock, patch
with patch('scrapy.selector.HtmlXPathSelector') as MockHtml:
instance = MockHtml.return_value
instance.method.return_value = 'foo'
example =
我是一个完整的Python新手,但我需要在google中搜索一个特定的页面,谷歌在两个页面中拥有,我不知道如何使它与scrapy的FormRequest一起工作。
我尝试用以下代码登录gmail作为测试:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.http import FormRequest, Request
class LoginSpider(BaseSpider):
name = 'super'
start_urls = [
我正在尝试编写一个爬虫来跨多个页面爬行,通过以下网址:我正在使用Scrapy版本0.22.1来做这件事。但是,我收到一条"cannot import name CrawlSpider“消息。我已经粘贴了下面蜘蛛的代码。有人能确定我哪里出错了吗?
from scrapy.spider import CrawlSpider, Rule
from scrapy.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.item import BookpagesIt
我正在尝试从two.py文件导入代码,这是我在one.py上当前代码的延续,但一直给我"exceptions.NameError: name 'main' is not defined“,任何帮助都会很好。有没有其他方法可以在anotherfile.py上继续编写代码
One.py示例:
import scrapy
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy
我一直在尝试让一个简单的爬虫与scrapy一起运行,但一直得到错误:
Could not find spider for domain:stackexchange.com
当我使用表达式scrapy-ctl.py crawl stackexchange.com运行代码时。蜘蛛如下所示:
from scrapy.spider import BaseSpider
from __future__ import absolute_import
class StackExchangeSpider(BaseSpider):
domain_name = "stackexchange.co
每次我向scrapy添加新的spider.py时,我都需要导入一些模块,例如:
from __future__ import division
from extruct.w3cmicrodata import MicrodataExtractor
from extruct.jsonld import JsonLdExtractor
import scrapy
import re
import logging
from pprint import pprint
from scrapy.exceptions import DropItem
from urlparse import urlparse
正在尝试从我的Scrapy项目创建exe文件。我已经在Scrapy项目的根目录下创建了main.py文件:
from scrapy.crawler import CrawlerProcess
from engine_bot.engine_bot.spiders.main_spider import MainSpider
if __name__ == '__main__':
process = CrawlerProcess({'BOT_NAME':'engine_bot',
'SPIDER_MODULES':[&
不确定是Scrapy还是Twisted有问题,还是?通过easy_install运行Python2.732位和最新的scrapy/依赖项
尝试模拟POST请求登录,并使其正常工作。我回到了,就这样做了,但它不起作用。
以下是爬行器代码:
from scrapy.spider import BaseSpider
class LoginSpider(BaseSpider):
name = 'example.com'
start_urls = ['http://www.example.com/users/login.php']
def pa
我们想在linux机器上使用scrapy。我们使用python 2.7版本并安装scrapy 1.4.0 (pip install scrapy)。我们将导入剪贴画添加到.py文件中。当我们运行.py文件时,会出现如下错误:
File "mapper.py", line 5, in <module>
import scrapy
File "/usr/local/lib/python2.7/dist-packages/scrapy/__init__.py", line 27, in <module>
from . imp