腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
PHPCrawl可以用于
抓取
网站吗?与Scrapy有何不同?
、
、
、
、
它是基于
Python
的,因为我非常熟悉PHP,所以我寻找了替代方案。它怎么能和
Python
上的Scrapy相比呢?谢谢
浏览 0
提问于2012-11-22
得票数 0
回答已采纳
1
回答
从单个MongoDB队列获取信息的多个工作人员
、
、
、
、
我正在用
Python
构建一个web
爬虫
,使用MongoDB来存储一个队列,其中包含所有要爬行的URL。我将有几个独立的工人,将
抓取
URL。每当工作人员完成URL
抓取
时,它将在MongoDB集合"queue“中发出请求,以获得要爬行的新URL。我的问题是,既然会有多个
爬虫
,我如何确保两个
爬虫
器不会同时查询数据库并获得相同的URL来
抓取
? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
、
、
、
、
我有一个
python
爬虫
,每隔几分钟就
抓取
几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即
抓取
特定的网站(而不是等待下一次
抓取
迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一
浏览 1
提问于2011-03-31
得票数 1
1
回答
抓取
器正在获取相关链接。
、
我已经创建了一个使用scrapy.The
爬虫
爬虫
的网站和
抓取
链接。**所使用的技术:**
Python
,Scrapy Error
抓取
相对urls,因为刮刀器无法
抓取
网页。我要
爬虫
只取无源网址。
浏览 2
提问于2021-06-29
得票数 1
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个
抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个
python
进程中运行scrapy的两个方法使用一个新进程来运行
爬虫
程序。我不希望每次我想要
抓取</e
浏览 0
提问于2013-05-23
得票数 2
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
3
回答
网络
爬虫
与Django前端的接口
、
、
第一:
抓取
和存档,至少每天,一组预定义的站点。第三:向用户公开一个基于Django的前端,让他们搜索
抓取
的数据。我一直在使用Apache Nutch/Lucene,但当我可以使用另一个
爬虫
引擎时,让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写
爬虫
,但我不确定该怎么做。基本上--对于用Django或现有的
python
爬虫
编写我可以适应的
爬虫
有
浏览 0
提问于2009-06-09
得票数 2
1
回答
crawler
抓取
chrome扩展id
、
、
我该如何为谷歌chrome扩展网站编写一个
爬虫
呢? 我正在做一些关于chrome扩展的安全研究。每个类别大约有100个扩展,我现在遇到的问题是编写一个
爬虫
来至少
抓取
UID。如果我
抓取
html,我将什么也得不到,因为该站点似乎会在稍后阶段加载页面的其余部分。换句话说,我需要的核心内容(即包含所有扩展元素的DOM )似乎是在我使用
python
抓取
HTML之后加载的。
浏览 2
提问于2012-04-21
得票数 1
回答已采纳
2
回答
web爬行工具,支持在开始爬行之前与目标站点进行交互
、
我正在寻找一个
爬虫
,它能够处理与Ajax的页面,并能够在开始爬行网站之前与目标网站执行某些用户交互(例如,点击某些菜单项,填写一些表格等).I尝试webdriver/selenium (这是真正的网络
抓取
工具),现在我想知道是否有任何
爬虫
程序,支持模拟某些用户交互之前开始爬行?(用Java、
Python
或Ruby ...)如果是,我很感谢任何描述这一点的链接。
浏览 1
提问于2011-06-28
得票数 0
1
回答
如何知道你是否被屏蔽从一个网站的网页刮刮?
、
我在一个网站上使用了这个漂亮的汤代码:funda = "https://www.funda.nl/koop/amsterdam/"print(response) ht
浏览 6
提问于2019-11-01
得票数 0
回答已采纳
1
回答
如何防止刮伤从伐木?
、
、
我正在从一个更大的框架中调用一个基于Scrapy的
爬虫
。在爬行过程中,Scrapy记录所有事件。
抓取
之后,
抓取
应该停止日志记录,调用框架应该接管日志记录任务,并再次打印出来。如何管理
Python
?中的多个记录器 更新:我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我的
爬虫
中。
浏览 2
提问于2013-12-10
得票数 1
2
回答
PHP与
、
、
我计划制作的网络
爬虫
,可以
抓取
200+领域,哪一种语言将适合它。我非常熟悉PHP,但我是
Python
的业余爱好者。
浏览 2
提问于2014-11-21
得票数 0
回答已采纳
1
回答
将我的
Python
电子邮件爬行器转换为Web应用程序的框架
在
Python
方面经历了几年之后,我才知道它在web开发中的应用。我在
Python
中制作了一个电子邮件
爬虫
程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的
python
电子邮件
爬虫
进入一个网络应用程序,这样其他员工就可以通过我来
抓取
电子邮件,这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的
python
电子邮件
爬虫
程序转换成一个简单的公司专用web应用程序?制作网络应用
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
5
回答
简单唯一非优先级排队系统
、
我正在用
python
编写一个简单的网络
爬虫
,我不想创建一个简单的queue类,但我不太确定最好的开始方法。我想要的东西,只持有唯一的项目来处理,这样
爬虫
将只
抓取
每一页每次脚本运行一次(只是为了避免无限循环)。有没有人能给我一个简单的队列示例?
浏览 0
提问于2009-02-14
得票数 1
回答已采纳
2
回答
基于
python
的Twitter社交网络
爬虫
、
、
我很抱歉问这个问题,但我是新手写
爬虫
。对于教程之类的起点,有什么建议吗? 非常提前感谢您。
浏览 0
提问于2012-01-01
得票数 1
回答已采纳
4
回答
在批处理文件中使用scrapy crawl命令时继续批处理脚本命令
、
、
我使用scrapy从网页
抓取
信息。我已经写了
爬虫
代码,它工作得很好。我还有一些其他的
python
代码文件来优化
抓取
的数据。总而言之,我有一个批处理文件,我首先在其中使用"Scrapy Crawl“命令,然后运行我的
python
文件来优化
抓取
的信息。批处理文件的内容:scrapy crawl mySpider -o outputData.json -t json
python
refineData.p
浏览 1
提问于2013-05-09
得票数 1
回答已采纳
11
回答
如何使用
Python
发出urllib2请求?
、
我正在尝试使用用
Python
编写的
爬虫
来
抓取
网站。我想将Tor与
Python
集成,这意味着我想使用Tor匿名地
抓取
站点。 我试过这样做。似乎不起作用。我检查了我的IP,它仍然和我使用tor之前的一样。
浏览 8
提问于2009-07-08
得票数 55
2
回答
如何与
python
中的ror程序进行通信
、
、
、
我有一个使用rails进行CRUD操作的应用程序,它很方便所以我的问题是
python
如何与ror程序通信?
浏览 1
提问于2010-12-27
得票数 0
3
回答
如何用
Python
搜索互联网?
、
我上过几个
Python
在线课程,但都没有提到如何使用
Python
访问互联网。我不知道我应该从哪里开始。
浏览 1
提问于2013-04-04
得票数 4
回答已采纳
2
回答
有没有可以下载整个网站的网络
爬虫
?
、
需要知道是否有一个
爬虫
/下载器,可以
抓取
和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有java script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法
抓取
这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫:抓取手机APP的数据
用Python爬虫抓取免费代理IP
Python爬虫-将抓取数据写在Excel上
Python爬虫抓取纯静态网站及其资源
Python之多线程爬虫抓取网页图片
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券