腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
遍历
URL
列表
以
抓取
Scrapy
中
的
数据
?
url
、
scrapy
、
scrape
import
scrapy
name='one_plus' start_urls
浏览 16
提问于2020-09-22
得票数 0
1
回答
如何
让
scrapy
使用
url
遍历
归档文件?
python
、
python-3.x
、
scrapy
我正在尝试让一个
抓取
蜘蛛
抓取
归档
中
的
几个页面,目的是打开每个单独
的
链接并
抓取
链接页面的内容。我遇到了一些随机
的
HTTP500错误,我试图通过简单
的
尝试跳过这些错误-除了跳过那些返回500个错误
的
页面。 解析函数
的
第一部分使用parse_art函数
遍历
归档页面
中
的
href,
以
获取要
抓取
的
页面。第二部分是在归档<e
浏览 18
提问于2019-07-08
得票数 1
回答已采纳
0
回答
Scrapy
跟随链接未获取
数据
python
、
web-scraping
、
scrapy
我试图用一个简单
的
抓取
蜘蛛来跟踪一个链接
列表
,并从每个链接
中
删除
数据
,但我遇到了麻烦。在
scrapy
shell
中
,当我重新创建脚本时,它会发送新
url
的
get请求,但是当我运行爬网时,我没有从链接
中
得到任何
数据
。我得到
的
唯一
数据
是从链接之前
抓取
的
起始
url
。
如何
从链接
中
<e
浏览 4
提问于2017-11-26
得票数 0
回答已采纳
2
回答
Scrapy
:修改响应
中
的
元素和字段
python
、
python-2.7
、
scrapy
、
lxml
我对
Scrapy
、Python和面向对象编程比较陌生,所以如果我遇到任何术语错误或不清楚
的
地方,我深表歉意。目前,我正在使用
Scrapy
的
选择器
抓取
数据
,并使用lxml修改响应。选择器迭代图像
以
抓取</
浏览 2
提问于2015-07-19
得票数 6
2
回答
Python
Scrapy
字典项目
python
、
list
、
dictionary
、
web-scraping
、
scrapy
有没有可能制作一个Python
Scrapy
爬虫来
抓取
整个网站,创建一个字典,在一个列
中
包含网站中使用
的
每个单词,并在它旁边
的
列
中
显示每个单词
的
所有实例
的
URL
?如果是,是
如何
实现
的
?我假设爬行器应该不断地
抓取
每个
URL
,将HTML转换为纯文本,然后将每个字符串划分为
列表
项,创建一个
列表
,然后只向该
列表
添加以前
浏览 12
提问于2020-04-28
得票数 0
1
回答
使用
scrapy
抓取
各种网站并找到特定
的
单词
python
、
web-crawler
、
scrapy
我对
scrapy
框架是个新手。他们有一个很棒
的
文档,我在里面学到了各种东西。我正在尝试卷曲各种教育网站到深度3级,在每个网站中找到cse部门(尝试找到cse或计算机或在该页面上
抓取
的
链接
中
的
单词
列表
)。我想导入csv文件并
遍历
每个
URL
。我该怎么做呢?如果他们有cs部门,这些链接应该写在csv文件
中
。
如何
修改我
的
XPath
以
在每个网站中找到cse部门(尝试在该页面
浏览 2
提问于2012-11-08
得票数 0
2
回答
通过BeautifulSoup解析存储在
URL
中
的
数据
?
python
、
html
、
web-scraping
、
beautifulsoup
我正在尝试通过这个网站访问不同鱼类家族
的
URL
:import urllib2from bs4 import BeautifulSoup fish_
url
= 'http:/CommonName=Sa
浏览 0
提问于2012-03-06
得票数 0
4
回答
如何
在
抓取
的
CrawlSpider
中
访问特定
的
start_
url
?
python
、
django
、
scrapy
我正在使用
Scrapy
,特别是
Scrapy
的
CrawlSpider类来
抓取
包含某些关键字
的
web链接。我有一个相当长
的
start_urls
列表
,它从一个连接到Django项目的SQLite
数据
库
中
获取条目。我想将
抓取
的
web链接保存在此
数据
库
中
。所有
抓取
的
网页链接都是start_urls
列表
中
浏览 1
提问于2012-05-15
得票数 7
回答已采纳
1
回答
Scrapy
不爬行于start
中
包含
的
数据
。
python
、
scrapy
、
web-crawler
我试图
抓取
整个网站使用刮刮。根据scarpy
的
文件 因此,根据这个定义,
scrapy
应该
遍历
start_urls下提到
的
浏览 3
提问于2014-10-29
得票数 2
回答已采纳
1
回答
Scrapy
获取
URL
的
所有外部链接
hyperlink
、
scrapy
、
external
我使用mydomain.com来
抓取
整个网站(allow_domains =
scrapy
)。现在我想从当前
URL
获取所有外部链接(到其他域)。
如何
将其集成到我
的
spider.py
中
,
以
获得包含所有外部
URL
的
列表
?
浏览 3
提问于2014-12-23
得票数 2
1
回答
使用来自同一
URL
的
多个POST
数据
进行
抓取
python
、
loops
、
web-scraping
、
screen-scraping
、
scrapy
我已经创建了一个爬虫,它收集具有匹配电话号码
的
公司名称
列表
。然后将其保存为CSV文件。from
scrapy
.s
浏览 1
提问于2013-07-17
得票数 3
回答已采纳
1
回答
如何
让
Scrapy
只
抓取
Xpath
中
的
链接?
python
、
web-scraping
、
scrapy
我是
Scrapy
的
新手,我想做
的
是做一个爬虫,它只会跟踪给定start_urls上
的
HTML元素
中
的
链接我不想
抓取
URL
中
的
所有链接,而是只想
抓取
xpath
中
的
链接 目前,我正在使用以下代码来
抓取
所有的链接,我
如何</
浏览 0
提问于2012-12-25
得票数 6
回答已采纳
1
回答
如何
并行运行Selenium-
scrapy
python
、
selenium
、
web-scraping
、
scrapy
、
multiprocessing
我正在尝试使用
scrapy
和selenium来
抓取
javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站,使用
scrapy
从当前页面
抓取
到不同
列表
的
所有链接,并将它们存储在一个
列表
中
(到目前为止,这是最好
的
方法,因为尝试使用seleniumRequest然后,我循环
遍历
URL
列表
,在selenium驱动程序
中
打开它们
浏览 36
提问于2021-02-05
得票数 0
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我想做一个网站,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
如何
使用
Scrapy
更新价格
python
、
web-scraping
、
beautifulsoup
、
scrapy
、
scrapy-splash
我正在开发价格下降通知应用程序,我正在考虑使用
Scrapy
,但是,我不确定
如何
使用它,我是否需要在特定间隔后定期检查产品价格,或者有任何其他方法来做到这一点。
浏览 2
提问于2021-06-13
得票数 0
1
回答
如何
使用
scrapy
抓取
网站?
web-crawler
、
web-scraping
、
scrapy
我要写一个基于
scrapy
的
Gui应用程序,用户输入一个网站
的
URL
,然后点击“爬网”按钮,整个网站就会被
抓取
并存储在内置
的
scrapy
-db (sqlite)
中
。
如何
使用
scrapy
帮助我
抓取
网站?
浏览 4
提问于2012-03-09
得票数 0
1
回答
将
Scrapy
指向本地缓存,而不是执行正常
的
爬行过程
python
、
web-scraping
、
scrapy
我使用管道将
Scrapy
爬行
中
的
文档缓存到
数据
库
中
,这样,如果我更改了项目解析逻辑,就可以重新解析它们,而不必再次访问服务器。 让
Scrapy
从缓存
中
处理而不是尝试执行常规
抓取
的
最好方法是什么?我喜欢
scrapy
对CSS和XPath选择器
的
支持,否则我会用lxml解析器单独访问
数据
库。有一段时间,我根本没有缓存文档并以正常
的
方式使用
Scrapy
浏览 1
提问于2015-09-05
得票数 3
1
回答
Scrapy
有物品限制吗?
python
、
python-2.7
、
class
、
web-crawler
、
scrapy
在那些日子里,我用Python用
Scrapy
制作了一个蜘蛛。它基本上是一个简单爬行器类,用于对Html页面
中
的
某些字段进行简单
的
解析。我不使用starts_
url
[]
Scrapy
字段,但我使用如下
的
个性化
列表
:def __init__(self,
url
, data): self.
url
self.
url
_to_scrape.append(s
浏览 3
提问于2015-10-16
得票数 0
1
回答
如何
打开一个包含urls
列表
的
大型csv并
抓取
这些urls?
python
、
scrapy
我在本地机器上有一个很大
的
csv,它只包含一个urls
列表
,没有其他我想要
抓取
的
列,并从每个urls中提取特定
的
css元素。我已经完成了一个测试,不看csv,只做一个一次性
的
开始
url
。我不知道
如何
打开一个包含一百万个urls
的
大型csv,让
scrapy
遍历
每个urls,然后再转到下一个。import
scrapy
from ..items import stkscrapeItem
浏览 3
提问于2020-04-30
得票数 0
1
回答
当我在刮一个网站
的
时候,我
的
产品会去哪里?
python
、
scrapy
、
generator
、
yield
我用刮痕来
抓取
网站。我有这样一个代码块,它删除了我
的
data.json文件
中
的
现有
数据
: if f:然后,我向项目容器提供
数据
:items['name'] = name在函数
的
末尾,我向
列表</
浏览 3
提问于2020-07-26
得票数 0
回答已采纳
点击加载更多
相关
资讯
Scrapy中如何提高数据的插入速度
Python爬虫入门,快速抓取大规模数据6
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
6000 多款 App,看我如何搞定她们并将其洗白白
大神教你十分钟写界面化爬虫,爬取百思不得姐美眉视频:附源码
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券