腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
我们
可以
在
Scrapy
中
使用
锁
吗
?
因为
Scrapy
是
单线程
的
,
所以
需要
它们
吗
?
python
、
python-3.x
、
scrapy
在
my item Pipeline
中
,为了在数据库
中
添加数据,
在
处理项目的过程
中
,到服务器
的
连接可能会随机断开,我
需要
重新建立连接。现在在open_connection函数
中
,我是否
需要
确保只有一个线程会创建新连接,并且所有并发请求都不会开始创建新连接?由于
scrapy
是
单线程
的
,我想在这个场景
中
我不
需要
任何
锁
浏览 101
提问于2019-09-29
得票数 4
回答已采纳
3
回答
Scrapy
是
单线程
还是多线程?
python
、
multithreading
、
scrapy
、
web-crawler
在
Scrapy
中
几乎没有并发设置,比如。这是否意味着
Scrapy
crawler
是
多线程
的
?
所以
如果我运行
scrapy
crawl my_crawler,它会同时并行地触发多个请求
吗
?我问这个是
因为
,我读到过
Scrapy
是
单线程
的
。
浏览 0
提问于2014-07-15
得票数 17
1
回答
动态内容抓取
python
、
web-scraping
、
scrapy
我们
可以
使用
Scrapy
从由Javascript加载
的
网页
中
获取内容
吗
?我正在尝试从页面
中
抓取
使用
示例,但是由于
它们
是
使用
Javascript作为JSON对象加载
的
,
所以
我无法
使用
Scrapy
获取
它们
。 你能提出什么
是
处理这些问题
的
最佳方法
吗</em
浏览 5
提问于2016-11-22
得票数 0
回答已采纳
7
回答
Cron作业
中
的
Scrapy
crawler
ubuntu
、
cron
、
scrapy
、
crontab
、
cron-task
我想从cron作业
中
执行我
的
抓取程序。#!/bin/bash
scrapy
crawl my_spider_name */5 * * * *sh /myfolder/crawlers/getdata.sh 但是它不工作,哪里错了,我<
浏览 2
提问于2013-06-21
得票数 24
回答已采纳
2
回答
从子目录
中
为托管
在
Heroku上
的
Django项目运行非Django命令?
django
、
heroku
、
scrapy
我
的
Django项目
使用
了名为
Scrapy
的
Python web抓取库。
Scrapy
附带了一个名为
scrapy
crawl abc
的
命令,它
可以
帮助我抓取我
在
scrapy
应用程序
中
定义
的
网站。当我
在
本地机器上运行诸如
scrapy
crawl spidername之类
的
抓取命令时,应用程序能够抓取日期并将其复制到我
的</e
浏览 1
提问于2012-01-27
得票数 3
回答已采纳
2
回答
鸡皮芹菜`update_state`
python
、
scrapy
、
celery
、
scrapy-pipeline
但是现在没有办法
在
刮板内部
使用
celery.update_state(),
因为
它无法访问原始任务(尽管它正在芹菜任务
中
运行)。 How are you using celery with <em
浏览 2
提问于2017-06-12
得票数 0
回答已采纳
4
回答
scrapy
日志处理程序
python
、
screen-scraping
、
scrapy
我
在
以下两个问题上寻求您
的
帮助-如何像在python
中
那样为不同
的
日志级别设置处理程序。目前,我有STATS_DUMP = True 但是
Scrapy
生成
的
调试消息也会添加到日志文件
中
。其次,
在
文档
中
,它说The logging service must be explicitly started through the
浏览 2
提问于2011-11-30
得票数 4
回答已采纳
2
回答
java
中
的
Scrapy
?
java
、
python
、
scrapy
可以
在
Java项目中
使用
Scrapy
吗
? 例如,
使用
Jython,或者可能
是
“间接”解决方案。
浏览 3
提问于2012-11-23
得票数 0
回答已采纳
1
回答
不能为每个注释获取每个<p>标记
python
、
web-scraping
、
scrapy
我试图刮掉一个视频
的
评论,我
可以
很容易地得到所有的东西,除了每个特定评论
的
正文
使用
刮除本网站: 'video_id': video_id print(comment_data_list) 我想得到每个注释
的
文本,但是不能,获取该部分
的
浏览 4
提问于2021-08-07
得票数 0
回答已采纳
2
回答
剪贴式项目更改列名
python
、
scrapy
、
scrapy-item
有没有办法
在
csv输出
中
更改列名,例如,我有这样
的
scrapy
项: import
scrapy
recordi =
scrapy
.Field()
在
我
的
爬虫脚本
中
,我
使用
了: item['recordi'] = ....我
使用
scrapy
命令
scrapy
cr
浏览 16
提问于2021-10-21
得票数 1
2
回答
有可能从壁虎身上再跑一只蜘蛛
吗
?
python
、
scrapy
、
multiprocessing
现在我有两只蜘蛛,我想做
的
是
文档中有一个关于从脚本启动
的
示例,但我要做
的
是
在
使用
scrapy
crawl命令
的</e
浏览 8
提问于2015-08-24
得票数 12
5
回答
用pip安装Python模块
python
、
import
、
module
、
scrapy
我正在安装一个叫做
Scrapy
的
模块。我用我
在
我
的
/usr/local/lib/python2.7/site包中看到了'
scrapy
‘文件夹,但是当我试图将它导入Python程序时,
是
说没有这个名称
的
模块对为什么会发生这种事有什么想法
吗
?编辑:以下
是
pip命令
的
输出: Downloading&
浏览 2
提问于2013-11-12
得票数 11
回答已采纳
2
回答
使命令提示符等待所有进程完成执行
batch-file
、
process
、
wait
我
的
批处理文件由几个命令组成。我希望该进程仅在所有进程执行后才终止。我
的
java代码
是
Process p=Runtime.getRuntime().exec(command);在此之后,我想在完成批处理文件
中
的
所有进程之后执行一
浏览 6
提问于2015-03-27
得票数 0
回答已采纳
1
回答
使用
抓取提取链接
中
的
数据
python
、
scrapy
我一直试图从consumercomplaints.in中提取数据、标题和标题链接
中
的
数据。我编写了以下代码,无法解析链接和提取数据,也无法提取related.plz指南
的
所有链接from
scrapy
.selector import Selectorfr
浏览 2
提问于2015-01-22
得票数 0
回答已采纳
3
回答
使用
Scrapy
时出错:[‘
scrapy
.telnetT. Error’:没有名为conch扭曲
的
模块]
python
、
scrapy
、
twisted
在
Ubuntu13.04
中
,我从tarball
中
为python-2.7安装了
Scrapy
。执行爬行命令将导致以下错误: 重新安装刮伤也没有帮助。 某个人能把我
浏览 6
提问于2013-06-23
得票数 5
2
回答
在
Scrapy
中
拥有“设置配置文件”最简单
的
方法是什么?
scrapy
Scrapy
从settings.py获取设置(有默认设置、项目设置、每个爬行器
的
设置)。我正在寻找
的
是
能够有一个以上
的
文件与设置,并能够
在
它们
之间切换,
因为
我启动我
的
蜘蛛快速。然后你
可以
使用
application-dev.settings和application-prod.settings。通过这种方式,您
可以
并行维护多个配置,并在这些配置之间快速切换。 我已经找到了一种不
浏览 0
提问于2019-03-14
得票数 3
1
回答
如何
使用
psycopg2将抓取
的
项(或dict /命名元组)放入postgres存储过程(函数)
中
执行插入操作
python
、
sql
、
postgresql
、
scrapy
、
psycopg2
其中一些
是
简单
的
异步插入。然而,
它们
有大量
的
参数。<e
浏览 0
提问于2012-07-13
得票数 2
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我想做一个网站,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
ScrapyRT vs Scrapyd
python
、
web-scraping
、
scrapy
、
scrapyd
到目前为止,
我们
使用
已经有一段时间了。它为一个
scrapy
项目提供了一个很好
的
包装器,并且它
的
爬行器
可以
通过HTTP API控制爬行器: Scrapyd
是
一个用于运行
Scrapy
爬行器
的
服务。它允许您部署
Scrapy
项目并
使用
HTTP JSON API控制
它们
的
爬行器。但是,最近我注意到了另一个“新鲜”
的
包-- ,根据项目描述,它听起来非常有前
浏览 120
提问于2016-05-18
得票数 26
回答已采纳
1
回答
Scrapy
不
使用
来自settings.py
的
params
python-3.x
、
scrapy
、
http-error
我
的
抓取蜘蛛被我想要解析
的
站点ip阻止了。我得到520错误。如果我
在
爬行器
中
初始化头/user_agent权限,并在
scrapy
.Request
的
元param
中
设置代理,我就
可以
发送第一个请求并获得代码200,但是它在403 HTTP状态代码
中
停止运行或不被允许
所以
我编辑了middlewares.py添加了CustomProxyMiddleware。
在
settings.py
中</e
浏览 3
提问于2019-09-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy官方文档提供的常见使用问题
跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!
python爬虫系列开发(二)scrapy安装指南
分布式爬虫原理之分布式爬虫原理
Python学习之初识Scrapy
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券