腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy:没有主机路径,并且启用了持久支持
、
、
如果我
运行
的
爬虫
与持久支持启用,我暂时松散的互联网连接。
爬虫
是否会重试那些在临时
网络
丢失期间获得无主机
错误
路由的URL?
浏览 2
提问于2014-01-21
得票数 1
回答已采纳
1
回答
在angular universal中检测网站页面中的
网络
爬虫
、
、
、
我想要检测服务器端呈现的对我的页面的当前请求- ssr来自
网络
爬虫
或普通用户。而不是在用户使用我的页面时
运行
。 如何检测这个东西?
浏览 4
提问于2019-10-22
得票数 1
2
回答
在MYSQL中删除非常非常相似的行
、
在PHPMYAdmin中,我正在
运行
一个
网络
爬虫
。
网络
爬虫
偶尔会拾取相同的urls。在
网络
爬虫
中,它已经索引了数千个链接,我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)
浏览 1
提问于2012-08-17
得票数 0
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于PHP的
网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样
运行
吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个
网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
如何保持
网络
爬虫
运行
?
、
、
我想用JS写我自己的
网络
爬虫
。我正在考虑使用node.js解决方案,如 目标是每10分钟进行一次“爬行”,所以我希望我的
爬虫
每10分钟从网站上获取数据。那么,我应该考虑什么样的解决方案来让脚本一直
运行
,即使计算机被关闭了呢?
浏览 3
提问于2015-05-23
得票数 5
回答已采纳
1
回答
支持windows增量爬行的Web
爬虫
、
、
、
、
我需要一个开源的web
爬虫
在java开发的增量爬行支持。 Nutch -一个
网络
爬虫
,有更多的hadoop支持功能。我可以在eclipse中编辑代码,但它在
运行
map时会导致许多
错误
,减少作业。
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
2
回答
crawler实例
、
我正在构建一个大规模的
网络
爬虫
,多少个实例是最佳的爬行时,在专用的
网络
服务器上
运行
时,位于互联网服务器场。
浏览 0
提问于2009-06-21
得票数 0
回答已采纳
1
回答
重定向时的道德/法律考虑
、
一个
网络
爬虫
买了我们的网站两次。它忽略了我们的robots.txt,我们没有得到客户服务的回复,也没有使用电子邮件和twitter的支持。基于用户代理字符串的
错误
代码使用tomcat/tuckey?(如果这很重要,我们的站点是托管在Windows服务器上的。)我不能使用IP地址,因为机器人使用了很多(显然是基于网格的)。这在一定程度上是因为我们的网站是一个古老而破旧的遗留系统,但谷歌的
爬虫
和必应的
爬虫
并没有打倒我们,我们的正常业务流量也很好。对一个机器人进行大量的投资/开发是不明智的。
浏览 0
提问于2012-06-15
得票数 2
回答已采纳
3
回答
如何处理中多个线程的内存不足
错误
、
我对编程相当陌生,并且正在为我在
网络
爬虫
上的论文而工作。我已经提供了一个
网络
爬虫
,但我发现它太慢,因为它是单线程。花了30分钟才爬上1000个网页。我试图创建多个线程来执行,同时使用20个线程
运行
1000个网页只需2分钟。但现在我遇到了“内存堆出”的
错误
。我确信我所做的是
错误
的,即为20个线程创建了一个 for 循环。在不给出
错误
的情况下多线程java爬行器的正确方法是什么?说到这一点,多线程是否解决了我的问题?
浏览 10
提问于2009-07-18
得票数 2
回答已采纳
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个
网络
爬虫
来获取起始url的所有链接,并从这些链接中爬取所有链接,等等。我还注意到,一旦我
运行
我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的
网络
爬虫
。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下
错误
: java.lang.outOfMemory :无法创建本机线程
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对
网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
Web Crawler -找不到对象
、
、
、
我正在用asp.net开发一个
网络
爬虫
。 我的
网络
爬虫
有一个主页,它从HREF标签打开其他HTML页面,下载HTML页面并获取数据。现在的问题是,有时我会得到一个对象引用找不到的异常,有时代码
运行
得很好。
浏览 1
提问于2014-01-06
得票数 0
1
回答
如果要编写多线程爬行器,应选择哪个web服务提供商
如果我想写一个多线程
爬虫
,我想知道哪个是最好的best服务提供商。Appengine,ec2.... Appengine java显然有一些限制..此外,一个免费将是伟大的,因为我只是测试应用程序。
浏览 2
提问于2009-12-17
得票数 0
2
回答
木偶人爬行器大规模爬行
、
、
我们正在使用Puppeteer编写一个
网络
爬虫
。我们写的木偶
爬虫
执行和爬行网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些
错误
或崩溃而中断,那么它需要重新开始。如果出现任何
错误
,如何使基于Puppeteer的
网络
爬虫
从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列系统?
浏览 14
提问于2020-12-05
得票数 2
1
回答
搜索引擎,它根据非结构化数据创建有关主题的信息表。
、
、
、
我正在寻找一个web应用程序,它可以以与搜索引擎非常相似的方式从
网络
上收集数据,但它不会将结果作为标题和摘要的列表,而是将结果转储到一个表中,试图从其内部索引中的页面中提取元数据。(很久以前,谷歌有一个叫做Google Squared的
网络
应用程序。今天还有其他类似的工具吗?这是维基百科页面中的相关描述: Google从整个
网络
中提取结构化数据,并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表,其中有自己的一组列--与搜索主题相关联的公共属性。
浏览 0
提问于2023-02-07
得票数 2
1
回答
如何有效地
运行
python web
爬虫
、
、
、
我有一个python
爬虫
,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让
爬虫
程序工作,我的电脑必须全天候工作。是否有一种不同的方式
运行
网络
爬虫
?还是我必须在我的电脑上
运行
?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
1
回答
将Web Scraper/ Web Crawler移植到移动设备?
、
、
、
是否可以将
网络
爬行器/
网络
爬虫
移植到智能手机等移动设备上?如果是这样,我会怎么做呢?
浏览 0
提问于2011-12-20
得票数 0
1
回答
在服务器之间共享列表的适当方式
、
我有许多
网络
爬虫
运行
在不同的服务器上。我可以通过让每个
爬虫
检查SQL服务器中的finderprint来做到这一点。 但是--有没有更合适的方法呢?我在ubuntu上
运行
。
浏览 2
提问于2014-06-03
得票数 0
1
回答
GCP (Google ) VM停止工作。我该怎么补救?
、
、
、
我有一个,我正在
运行
一个
网络
爬虫
。不幸的是,
爬虫
在一段时间后不会向数据库添加任何条目。如果我想连接到VM以了解问题所在,我就无法连接(通过Putty和Google自己的界面)。但是在GCP接口上,它说服务器仍然在
运行
。如果我停止VM并再次启动它,就好像什么都没有发生一样,但是过了一段时间,同样的
错误
再次出现。 有人有解决办法吗?
浏览 0
提问于2020-01-15
得票数 1
1
回答
在命令行中
运行
ActiveX控件?
、
我正在写一个
网络
爬虫
。不幸的是,要爬行的站点非常旧,并且它使用了一些ActiveX控件。 我希望我的
爬虫
在命令行中
运行
,或者至少不加载整个Internet Explorer。有没有可能在命令行中
运行
ActiveX控件?
浏览 1
提问于2014-12-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何解决爬虫10060错误
python运行错误自查手册
网络爬虫
Python Scrapy 爬虫(四):部署与运行
Spring 项目运行提示错误 Not a managed type
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券