腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
不运行ModuleNotFoundError:没有名为“scraper.settings”的模块
、
kalpesh/venv/bin/scrapy", line 8, in <module> File "/home/kalpesh/venv/lib/
python
3.6cmdline.py", line 113, in execute File "/home/kalpesh/venv
浏览 2
提问于2020-04-18
得票数 0
回答已采纳
1
回答
使用Scrapy,获取"Error: ImportError: No模块名为testspiders.spiders.followall“
、
、
实际上,我是通过node.js运行这个
python
脚本的,它有一个名为的模块,它只允许您使用以下简单代码运行
python
脚本:crawler.configure()crawler.start()reactor.run() 我的目录结构仅通过添加
python
目录和文件以及使用
python
的几行代码从中
浏览 2
提问于2014-10-22
得票数 3
回答已采纳
1
回答
web
爬虫
如何构建URL目录以抓取所需内容
、
、
、
有没有用
python
编写的开源web
爬虫
? 哪里是学习更多关于网络
爬虫
的最好的地方?
浏览 2
提问于2018-10-11
得票数 1
2
回答
从带有刮擦参数的脚本中运行Scrapy
蜘蛛
、
我用scrapy编写了一个
蜘蛛
&我可以通过
python
脚本成功地运行它。问题是,当我们通过scrapy提示符运行
蜘蛛
时,我们提供了诸如“-o ScrapedData.json -t json”这样的工具,我想通过
python
脚本运行"scrapy
爬虫
-o ScrapedData.json
浏览 2
提问于2014-02-18
得票数 0
1
回答
如何在刮刮中通过CrawlerProcess传递自定义设置?
、
、
、
我有两个CrawlerProcesses,每个都叫不同的
蜘蛛
。我想将自定义设置传递给这些进程之一,以将
蜘蛛
的输出保存到csv,我认为我可以这样做:process.start() 在我的<
浏览 0
提问于2017-02-17
得票数 6
回答已采纳
1
回答
twitter好友爬行器
、
是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用的东西。谢谢莱拉
浏览 1
提问于2011-03-17
得票数 0
1
回答
如何顺利地重启scrapy-redis
蜘蛛
?
、
、
我用scrapy-redis写了一个简单的
爬虫
来制作分布式
蜘蛛
。当我启动两只
蜘蛛
,然后把它们都杀死时,我发现了这点。redis队列只留下了‘dupfilter’队列。当我重新启动这两个
爬虫
时,它们根本不起作用。那么,如果
蜘蛛
意外死亡或崩溃,如何重新启动它们呢?
浏览 0
提问于2016-05-30
得票数 0
1
回答
CrawlSpider使用开机自检,只抓取和处理第一个链接
、
、
下面是我的
蜘蛛
:from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider
浏览 36
提问于2021-05-20
得票数 0
回答已采纳
2
回答
一种可接受的检测可信
蜘蛛
而不重定向它们的方法。
我已经实现了一个登录功能,它将用户重定向到另一个域并再次返回。当然,我不希望搜索引擎(至少我们关心的搜索引擎)被重定向,那么什么是可以接受的解决方案呢?$agent = strtolower($_SERVER['HTTP_USER_AGENT']); strpos($agent, "slurp") || strpos($agent, "google")
浏览 1
提问于2012-09-03
得票数 0
3
回答
无法使最简单的管道示例在scrapy中工作。
、
这是我的简单代码,我不能让它工作。这是我的密码 name = 'mytest' login_page = 'http://www.example.com' #
浏览 1
提问于2012-12-15
得票数 10
3
回答
如何重定向特定IP地址
、
、
、
我想重定向
蜘蛛
从访问我的博客。我正在寻找一个解决方案,可以嵌入到网页HTML,以便
蜘蛛
被重定向离开之前,影响我的页面访问量。比如说javascript,
爬虫
的IP地址,以及
爬虫
的引用url,这是可能的吗?
浏览 0
提问于2013-12-13
得票数 0
1
回答
用于在web上搜索任何文件的
python
爬虫
代码
、
有没有一个
python
爬虫
/网络
蜘蛛
代码来根据一个或多个搜索关键字在web上搜索任何文件?在返回链接或将文件下载到文件夹之前,代码需要在文件中搜索最大关键字的匹配。
浏览 3
提问于2016-11-10
得票数 0
1
回答
以编程方式调用同一个
蜘蛛
、
、
我有一个
蜘蛛
,爬行链接的网站通过。当同一个
蜘蛛
用不同的数据完成执行时,我想再次启动它。如何重新启动同一
爬虫
?这些网站是通过数据库传递的。我希望
爬虫
在一个无限循环中运行,直到所有的网站都被爬行。目前,我必须一直启动
爬虫
scrapy crawl first。是否有任何方法启动
爬虫
一次,它将停止时,所有的网站爬行? 我搜索了同样的,并找到了一个解决方案,一旦它关闭/完成了抓取器。但我不知道如何以编程方式调用
蜘蛛
表单closed_handler方法。closed_ha
浏览 7
提问于2016-05-03
得票数 0
回答已采纳
1
回答
为subreddits准备的美汤
、
、
、
/usr/bin/
python
from BeautifulSoup import BeautifulSoup as BSoup import os, re,
浏览 2
提问于2014-07-31
得票数 0
1
回答
运行新的爬行器或获取新的urls列表以进行抓取
、
我刚刚用Scrapy写了一个简单的
爬虫
。现在我在想,有没有办法一块一块地抓取链接,并在之前的
爬虫
完成工作后重新启动
蜘蛛
?我的意思是,在
蜘蛛
的__init__中,我从数据库中获得了100个起始URL,当所有这些链接都被爬行并且
蜘蛛
终止时,我想要自动启动一个新的
蜘蛛
。我该怎么做呢?
浏览 1
提问于2015-02-27
得票数 1
1
回答
如何在
Python
3中将特殊参数传入os.system?
我将参数传递给
Python
3中的os.system,如下所示: os.system("scrapy crawl %s -a arg='%s'" % ("googlebook",scrapy_url))q=19434&maxResults=40&startIndex=200' 在
蜘蛛
唯一的接收中: ?q=19434 如何将特殊的单词传递给
爬虫
?
浏览 40
提问于2019-02-08
得票数 1
回答已采纳
1
回答
scrapy:在scrapy finishing处理urls之后发布一些表单
、
、
、
我正在使用scrapy从一个会员的唯一网站抓取数据。我成功地执行了登录和抓取数据。我的问题是:我注意到了一个解决方案-请看这里(),但是由于某些原因,我不能继续在self.spider_closed方法中产生更多的请求,因为它在这些示例中被调用,所以我可以进行一些写操作。
浏览 0
提问于2015-04-15
得票数 2
2
回答
抓饼干怎么操作?
、
、
我必须爬行一个网站,所以我使用Scrapy来完成它,但是我需要传递一个cookie来绕过第一个页面(这是一种登录页面,您可以选择您的位置)如何处理曲奇?
浏览 0
提问于2014-04-28
得票数 2
回答已采纳
1
回答
如何为我的网站编制索引
、
我刚刚遇到了Elastic Search,我已经完成了安装和示例索引以及搜索。现在我想把这个用在我的网站上。为此,如何为我的网站创建索引?我是否需要将整个网页内容存储为索引??
浏览 0
提问于2011-06-07
得票数 1
回答已采纳
1
回答
如何通过
Python
中的__init__设置类变量?
、
我试图在启动抓取
爬虫
时从命令行更改设置(
Python
3.7)。因此,我添加了一个init方法,但是我想不出如何从init方法中更改init方法中的类varible "delay“。
浏览 2
提问于2021-11-08
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
网络蜘蛛基本工作流程•爬虫工作原理#蜘蛛池SEO
蜘蛛爬虫的3种类型
Python爬虫入门3 爬虫必备Python知识
网络爬虫基本知识●为何需掌握蜘蛛技术(下)
Python爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券