腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
如何在ABOT
C
#网络
爬虫
中获取html输出页面?
、
我正在尝试用ABOT在
c
#.i中制作网络
爬虫
,我搜索了很多例子,并添加了ABOT网络
爬虫
。从那我只能得到日志输出而不是超文本标记
语言
页面输出。我想得到超文本标记
语言
页面输出only.because,超文本标记
语言
输出是超文本标记
语言
敏捷工具
的
输入。帮助我从ABOT网络
爬虫
在
C
#中获得超文本标记
语言
输出。谢谢。
浏览 4
提问于2013-09-12
得票数 5
5
回答
如何将动态站点转换为可从CD演示
的
静态站点?
、
、
我需要找到一种方法来爬行我们公司
的
web应用程序之一,并从它创建一个静态网站,可以烧录到cd上,供旅行
的
销售人员用来演示网站。后端数据存储分布在很多很多系统上,所以简单地在销售人员
的
笔记本电脑上
的
虚拟机上运行站点是行不通
的
。而且他们在一些客户端无法访问互联网(我知道没有互联网,手机phone....primitive )。有没有人对
爬虫
有什么好
的
建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己
的
工
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
3
回答
C
++网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小
的
网络
爬虫
。我在很高
的
层次上理解了整个过程。那么进入下一层细节,程序如何“连接”到不同
的
网站来提取HTML?另外,对于网络
爬虫
来说,
C
++是一个很好
的
选择吗? 谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
2
回答
C
# web和ftp爬网程序库
、
我需要一个库(希望是在
C
#中!)它作为web
爬虫
程序来访问HTTP文件和FTP文件。原则上,我喜欢阅读HTML,我想把它扩展到PDF,WORD等。我对初学者
的
开源软件很满意,或者至少对文档
的
任何方向都很满意。
浏览 0
提问于2010-10-19
得票数 3
回答已采纳
1
回答
网站数据
爬虫
,发布数据和遍历
、
、
虽然已经有相当多关于这些主题
的
帖子,但我
的
问题有点具体。我需要分析几个网站,一旦完成,我需要发送一些数据给它。例如,假设网站A为我提供了一个搜索选项卡,我需要以编程方式向其提供数据。根据目标站点
的
更新,结果页可能会有所不同。我想编写这样一个
爬虫
。那么,哪种工具/
语言
最适合实现这一点呢?我已经精通java和
C
语言
,所以任何
基于
它们
的
东西都会很有帮助。
浏览 1
提问于2013-03-27
得票数 0
3
回答
web
爬虫
/蜘蛛获取
基于
ajax
的
链接
、
、
我想要创建一个web
爬虫
/蜘蛛来迭代地获取网页中
的
所有链接,包括
基于
javascript
的
链接(ajax),对页面上
的
所有对象进行编目,构建和维护站点层次结构。我
的
问题是:谢谢 布拉杰什
浏览 1
提问于2011-07-01
得票数 0
3
回答
多
语言
网站和搜索引擎
、
、
我正在为一家拥有来自世界各地
的
客户
的
公司开发一个网站,该网站将以两种
语言
提供服务:意大利语(本地)和英语。当然,他们可以选择手动覆盖
语言
。当搜索引擎机器人检查站点以索引页面时,会发生什么情况?通常情况下,
爬虫
总是有
基于
美国
的
IP,即使
爬虫
器在"change language“链接上”单击“以显示意大利语页面,因为他们不能接受cookie(以及会话),所以我无法保存
语言
集,也不能跟踪选择了什么是所以问题是,你如何处理这种情况,
浏览 0
提问于2011-07-18
得票数 0
回答已采纳
5
回答
哪种
语言
最适合高效
的
网络
爬虫
?
、
我需要写一个网络
爬虫
,我需要哪种
语言
是性能最好
的
语言
,比如内存和性能。 编辑:原名是“为速度和性能而优化
的
语言
c
++或
C
#”
浏览 7
提问于2010-09-21
得票数 0
1
回答
有没有一种方法可以用NCrawler提取特定
的
html标签信息
、
、
规格: Win7 64、VS 2010、.NET 4.0、NCrawler库 我正在写一个
爬虫
,它将从网上商店提取一些数据。应用程序可以很好地提取URL,我可以正确地导航到商店中
的
每一件商品。问题是,保存产品所有页面数据
的
每个“description”对象都是文本形式
的
,我想知道是否有办法从这个"propertyBag“中读取<-description> text <-/descriptopn>这样
的
特定标记
的
内容,或者有其他方法。
浏览 0
提问于2014-11-30
得票数 0
1
回答
如何检测网页中大多数不常见
的
超链接和隐式重定向?
、
、
、
、
我在
C
++/Qt4.8.5中为Windows创建了网站
爬虫
。我发现,有时页面可能包含隐式(伪)重定向,就像script标记中
的
script。原始
爬虫
只检测到href标记中
的
a属性。但是还有其他节点可以包含urls。例如,<META HTTP-EQUIV="REFRESH" CONTENT="0; URL=/relative_url">。与url容器、隐式重定向相关
的
标记/属性(包括script)
的<
浏览 1
提问于2014-03-30
得票数 3
回答已采纳
5
回答
Googlebot是用哪种编程
语言
编写
的
(或任何其他高效
的
网络
爬虫
)?
、
有人知道谷歌机器人是用哪种编程
语言
编写
的
吗? 或者,更普遍
的
是,高效
的
网络
爬虫
是用哪种
语言
编写
的
?我见过很多Java
语言
,但在我看来,它不是最适合开发网络
爬虫
的
语言
,因为它产生了太多
的
开销(尝试使用Heritrix网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
1
回答
使用Elasticsearch
的
Nutch以外
的
爬虫
程序
、
、
当我设置我
的
数据系统时,我正在尝试获得一些建议。我想设置一个网络爬行系统。它可能会定期抓取几百/上千个站点。 我知道Nutch并且用过Nutch,但是我想知道其他人是否知道比Nutch更好
的
爬虫
。我还使用了Elasticsearch作为索引器,很难让Nutch与更新版本
的
ES一起工作。
浏览 10
提问于2018-02-01
得票数 1
回答已采纳
2
回答
基于
PHP
的
Web
爬虫
或
基于
JAVA
的
Web
爬虫
、
、
我对
基于
PHP
的
网络
爬虫
有些怀疑,它能像
基于
java线程
的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程
的
功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?
基于
PHP
的
爬虫
还是
基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
如何将没有url前缀
的
站点地址从搜索引擎爬行中排除?
、
让我们假设,我有一个关于以下域
的
网站: example.com 当用户访问example.com时,我
的
脚本将重定向到3种
语言
中
的
一种,
基于
他们
的
navigator.language,如果他默认使用英语但是,谷歌在没有任何
语言
前缀
的
情况下爬行我
的
网站主页,是否有可能将example.com排除在
爬虫
之外?
浏览 0
提问于2019-12-07
得票数 2
回答已采纳
1
回答
修改Nutch crawler以解析页面并从搜索到
的
页面中获取特定数据
、
、
我想爬行几个网站,并收集
基于
语言
的
数据。"Java“等。我是新
的
Nutch
爬虫
。我刚刚用HBase完成了Nutch2.3
的
安装。如何自定义爬行,以便在解析每个页面时,我可以获得该页面中
的
链接并从中提取一些数据。例如日期、主题等。 谢谢。
浏览 2
提问于2015-03-16
得票数 3
1
回答
TYPO3 - indexed_search -
爬虫
配置-多
语言
站点
、
、
我想禁用前端索引,利用
爬虫
。如何设置以下
爬虫
配置:( B)用几种
语言
编制定制记录索引 但是,在文档中没有任何关于
语言
的
内容:
浏览 0
提问于2018-07-24
得票数 1
回答已采纳
1
回答
有一个流行
的
工具来抓取网络数据吗?
、
我正在做信息提取
的
工作,我需要一个工具从网页上抓取数据,windows中有流行
的
工具吗?
浏览 7
提问于2009-12-14
得票数 0
3
回答
可扩展/可定制
的
Web爬行引擎/框架/库?
、
、
我有一个相对简单
的
案例。我基本上想存储各种网站之间
的
链接数据,不想限制域名。我知道我可以使用一些http客户端库编写自己
的
爬虫
程序,但我觉得我会做一些不必要
的
工作--确保页面不会被多次检查,弄清楚如何读取和使用robots.txt文件,甚至可能尝试使其并发和分布式,我确信还有很多其他我还没有想到
的
事情因此,我想要一个网络爬行框架,它可以处理这些事情,同时允许我决定如何处理响应(在我
的
例子中,只提取链接并存储它们)。大多数
爬虫
似乎认为你是在为搜索索引网页
浏览 0
提问于2009-08-20
得票数 2
回答已采纳
3
回答
非常简单
的
C
++网络
爬虫
/蜘蛛?
、
我试图在
C
++中做一个非常简单
的
网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单
的
,以了解这个概念。我发现了这个: 查找,可能是“href”链接,然后存储在某个数据文件中。互联网上是否有更简单
的
教程或指南?
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
2
回答
有效地搜索大量URL列表
、
、
、
我正在建立一个网络
爬虫
,它必须爬行数百个网站。我
的
爬虫
保存了一个已经爬行
的
urls列表。每当
爬虫
要爬行一个新页面时,它首先搜索已经爬行
的
url列表,如果已经列出了,则
爬虫
跳到下一个url,以此类推。因此,我
的
问题是,我可以使用什么样
的
算法来搜索一个urls列表(列表
的
大小每天增长到20到100 k)。
爬虫
目前是用Python编写
的
。但我将把它移植到
C
++或其他更
浏览 5
提问于2016-06-23
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于r语言的爬虫
基于LLM学习C语言
网络爬虫基本原理——基于python语言
基于Linux下的C语言项目实战-本地账号管理系统
C语言,C+语言
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券