腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在ubuntu
的
后台运行时,
爬虫
停止。
、
我使用具有无限循环
的
python制作了一个简单
的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同
的
一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了
Linux
命令这个
爬虫
是在Ubuntu服务器背景
下
运行
的
。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。这是关于网页
的
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
5
回答
有没有适用于PHP或Ruby
的
网络爬行库?
、
、
有没有适用于PHP或Ruby
的
网络爬行库?一个可以先做深度或广度优先
的
库...并且即使在使用href="../relative_path.html“和基本url时也处理这些链接。
浏览 2
提问于2009-05-13
得票数 2
回答已采纳
2
回答
抓取Facebook粉丝页面
、
我想cral一个facebook
的
粉丝页面,以获得所有的成员谁是该页面的球迷
的
详细信息。我在face book API中有任何可以帮助我
的
函数。或者有没有其他方法可以让我这么做?
浏览 0
提问于2009-12-16
得票数 0
回答已采纳
1
回答
如何使用ASP核心运行
爬虫
、服务交互和生命周期问题
、
、
我用ASP Core3.1应用程序开发了一个网络
爬虫
。由于要爬行
的
页面依赖于以前爬行
的
网页,所以这两个服务之间
的
通信通过两种方式通过数据库,从而实现了服务
的
良好解耦: 下载器服务从DB收集URL其根本原因是,尽管应用程序作为一个整体被设计为一个API (用于启动
爬虫
、停止它、获取一些爬行数据),但这些服务在后台运行
的
时间比API请求甚至会话长得多。我知道Singleton模式会导致问题,但
浏览 3
提问于2020-03-03
得票数 0
回答已采纳
1
回答
twitter好友爬行器
、
我是一个研究生,他
的
研究是复杂
的
网络。我正在从事一个项目,其中包括分析用户之间
的
联系(折叠和折叠)。是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用
的
东西。
浏览 1
提问于2011-03-17
得票数 0
2
回答
在网站和独立应用程序中使用Django
框架
、
我计划为它写一个网络
爬虫
和一个基于网络
的
前端(或者至少是它找到
的
信息)。我想知道是否可以使用Django
框架
让网络
爬虫
使用与网站相同
的
MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
Scrapy:如何从crawler获取处理过
的
流水线项目?
、
我创建了一个带有几个管道步骤
的
Scrapy Crawler。
爬虫
是一个更大
的
框架
的
一部分,它需要
爬虫
返回一个解析
的
项目列表。 在Scrapy中,我实现了一个包含几个规范化步骤
的
管道。由于Scrapy是更大
的
框架
的
一部分-如果我可以在通过整个管道后将项目返回到
爬虫
和/或
框架
,那就太好了。有没有办法做到这一点?
浏览 0
提问于2013-12-05
得票数 0
1
回答
如何提取我
的
爬虫
目前所站
的
网址?
、
、
我正在使用python中
的
scrapy
框架
制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处
的
URL。是否有一些方法/函数可以获得当前
的
URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
客户端操作系统上
的
DNS查询是否序列化?
、
、
即使您在
Linux
或windows上发出多个并行异步DNS解析请求(以编程方式),操作系统是否会序列化这些请求,并且不会将它们全部并行发送出去?那么,是否有任何.NET应用程序接口或一般情况
下
,它可以并行工作,根据我
的
程序给出
的
请求数量?想象一
下
一个网络
爬虫
场景,我需要每秒大量
的
dns查询,在一些早期
的
网络
爬虫
出版物中,提到dns成为瓶颈。
浏览 1
提问于2010-12-10
得票数 2
回答已采纳
1
回答
年龄验证页面阻塞网站-需要允许谷歌呢?
、
、
、
客户要求所有的网站访问被拒绝,除非用户同意他们
的
年龄在他们
的
国家和他们同意
的
条件。为了实现这一功能,我只需将所有通信量重定向到一个验证页面,在该页面中,他们可以设置一个新
的
会话,表示他们已经(在这次访问中)同意了这些条款。一旦设置了会话,站点就可以完全访问。我
的
问题是,我希望google等人在网站上爬行和索引所有页面。我如何确保机器人不会被捕获在年龄验证页面,什么是最好
的
做法在这里,以确保我
的
整个网站被抓取。
浏览 2
提问于2014-08-02
得票数 0
回答已采纳
1
回答
Solr是否有必要为Nutch
的
爬网数据建立索引?
、
、
Solr是Nutch索引爬行数据
的
唯一方法吗?如果没有,还有其他方法吗? 我也想知道为什么Nutch 1.4使用Solr来索引数据。为什么不自己做呢?它不是增加了这两个项目的耦合性吗?
浏览 0
提问于2012-04-23
得票数 1
回答已采纳
1
回答
如何对Google机器人和其他机器人隐藏某些DIV
、
; height: 100vh; overflow: hidden;问题是,我认为这会使我在谷歌上
的
排名下降,因为这是谷歌机器人看到
的
,所以我想知道是否有办法对谷歌和其他机器人隐藏整个div,我说
的
网站是
浏览 0
提问于2015-12-11
得票数 0
1
回答
JS中
的
爬虫
框架
、
、
这不是一个严格
的
技术编程问题。我更多
的
是在寻求建议,希望你们能提供帮助。我正在寻找一个网络
框架
/蜘蛛,可以爬行一个不规则
的
网站(一个网站没有一个容易定义
的
页面结构,例如使用url中
的
标题字符串索引),并搜索关键字。可以很容易地定制,并且可以很容易地在JS (最好是)或C#中编写附加功能
的
东西 我是网络
爬虫
行业
的
新手,所以只要给我一个
框架
,我会很高兴自己去读它。谢谢:)
浏览 0
提问于2015-02-16
得票数 0
1
回答
网站数据
爬虫
,发布数据和遍历
、
、
虽然已经有相当多关于这些主题
的
帖子,但我
的
问题有点具体。我需要分析几个网站,一旦完成,我需要发送一些数据给它。例如,假设网站A为我提供了一个搜索选项卡,我需要以编程方式向其提供数据。根据目标站点
的
更新,结果页可能会有所不同。我想编写这样一个
爬虫
。那么,哪种工具/语言最适合实现这一点呢?我已经精通java和C语言,所以任何基于它们
的
东西都会很有帮助。
浏览 1
提问于2013-03-27
得票数 0
5
回答
CentOS 5.5中Wine中
的
.Net
框架
、
、
是否可以在CentOS 5.5中
的
wine
下
安装和运行.Net
框架
,然后使用安装
的
框架
轻松地编译和执行在wine
下
开发
的
.Net应用程序。我在网上看到,我们可以在
linux
的
wine
下
安装.Net
框架
,但我无法在
linux
下
安装或执行.Net应用程序。如果我们可以在
linux
的
wine
下
安装.Net,那么在<e
浏览 20
提问于2010-12-15
得票数 0
2
回答
无法从AWS Lambda上
的
Scrapy获得结果
、
、
、
、
我用python库构建了一个
爬虫
。在本地运行时,它工作得非常完美和可靠。我试图将它移植到AWS lambda (我已经对它进行了适当
的
打包)。然而,当我运行它时,当爬行运行时,进程不会被阻塞,而是在
爬虫
返回之前完成,没有给出结果。这是我在日志退出前从日志中取出
的
最后一行:[] 2018-09-12 18:58:07 [scrapy.core.engine] INFO: Spider
浏览 0
提问于2018-09-12
得票数 4
回答已采纳
1
回答
集成Django Rest
框架
和Scrapy
、
、
、
Scrapy和Django
框架
都是独立
的
最好
的
Python
框架
,可以用更少
的
代码构建
爬虫
和web应用程序,尽管如此,当你想要创建爬行器时,你总是必须生成新
的
代码文件,并且必须编写相同
的
代码段(尽管有一些变化这可以让你在不写多个文件
的
情况
下
创建
爬虫
。我认为Crawlrunner https://docs.scrapy.org/en/latest/top
浏览 16
提问于2019-06-15
得票数 4
1
回答
如何防止刮伤从伐木?
、
、
我正在从一个更大
的
框架
中调用一个基于Scrapy
的
爬虫
。在爬行过程中,Scrapy记录所有事件。抓取之后,抓取应该停止日志记录,调用
框架
应该接管日志记录任务,并再次打印出来。如何阻止Scrapy 控制所有日志并将其传递回我
的
框架
?更新:我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我
的
爬虫</
浏览 2
提问于2013-12-10
得票数 1
1
回答
Linux
下
的
电源管理
框架
、
、
我观察到整个设备拓扑都是基于Buses --> Device + Driver
的
。总线中存在着
linux
(suspend + resume)提供
的
电源管理。设备驱动程序中也有类似的功能。struct device *dev, pm_message_t state); 那么这是如何实现
的
呢
浏览 2
提问于2012-10-19
得票数 2
1
回答
如何在Amazon
Linux
AMI上安装Scrapy
我想使用,这是一个
爬虫
框架
,并安装到我
的
服务器。NAME=“亚马逊
Linux
AMI”ID="amzn“VERSION_ID="2015.09“ANSI_COLOR=&quo
浏览 3
提问于2016-02-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
centos7下安装Python爬虫框架scrapy
Linux下/etc/skel框架目录的简介与使用
高级爬虫(一):Scrapy爬虫框架的安装
走进成熟的爬虫框架
高级爬虫:Scrapy爬虫框架初探
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券