腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用crawler4j库实现
Java
crwaler中模式匹配的一些信息
、
、
、
我想用
Java
实现一个非常简单的web
爬虫
,我已经找到了这个库: crawler4j:从URL开始(由我指定),并识别当前页面中是否有一个特定的单词,比如自己的名称或公司名称(这个词也是由我指定的) 如果找到这个单词,则必须将当前页面URL保存在
数据
库中。因此,没有语义
分析
,只有语法
分析
(
爬虫
必须尝试将网页内容与我指定的标记匹配)。
浏览 4
提问于2013-02-21
得票数 0
回答已采纳
5
回答
Java
中是否有用于文本
分析
/挖掘的API?
、
、
、
、
我想知道
Java
中是否有可以进行文本
分析
的API。可以提取文本中的所有单词、单独的单词、表达式等的东西。可以通知找到的单词是数字、日期、年份、名称、货币等的东西。我现在正在开始文本
分析
,所以我只需要一个API就可以启动了。我做了一个网络
爬虫
,现在我需要一些东西来
分析
下载的
数据
。需要方法来计算页面中的单词数量,相似的单词,
数据
类型和其他与文本相关的资源。
Java
中有用于文本
分析
的API吗? 编辑:文本挖掘,我想要挖掘文本。
Jav
浏览 2
提问于2011-07-23
得票数 25
回答已采纳
1
回答
如何使用Selenium来转储Web页面的整个DOM树?
、
、
、
我将通过
分析
Web页面的内容来构建一个Web
爬虫
。我正在使用Selenium
Java
API来呈现页面,并尝试构建完整的DOM来进行模糊
分析
。
浏览 13
提问于2016-09-23
得票数 0
3
回答
从用户代理识别
爬虫
程序
、
我想跟踪我的site.For的所有访问者( Os,浏览器和更多细节),我正在保存用户代理和URL和其他基本
数据
到database.Later执行Crone时,用户代理被
分析
并获取浏览器,Os。但我想识别
爬虫
(因为它们不能被视为访问者)。那么有没有办法从用户代理中识别
爬虫
呢?
爬虫
的用户代理是否遵循任何常见的模式?
浏览 1
提问于2012-06-12
得票数 0
1
回答
如何处理
爬虫
和过时的资产?
、
、
文件夹7adcf7ba已经不存在了,所以我认为
爬虫
以某种方式使用了缓存
数据
。我可以使用robots.txt吗?元标签?特殊属性?我怎么发动汽车呢?
浏览 0
提问于2017-12-04
得票数 0
3
回答
用户代理识别和搜索引擎优化
爬虫
数据
库
、
我被要求
分析
一个网站的流量日志。特别是,我必须从收集的user agent值开始识别
爬虫
。现在问题来了。是否有公共目录或网络
爬虫
库?这是第二个问题。在我的交通记录中也有很多空的用户代理。一个空的用户代理头是与
爬虫
有关还是与一个创作过程有关?
浏览 0
提问于2012-08-07
得票数 2
1
回答
谷歌网站管理员工具的
数据
来源是什么?
谷歌网站管理员工具从哪里获得所有的
数据
?它是与谷歌
分析
等配对,还是纯粹是
爬虫
和搜索它显示?
浏览 0
提问于2010-07-12
得票数 4
回答已采纳
1
回答
500G 在哪儿能找到资料?
、
、
、
、
500G python web、
爬虫
、
数据
分析
、机器学习、大
数据
、前端实战项目视频代码免费分享 在哪儿能下载到资料,在线等,挺急的~, 感谢各位大佬~
浏览 248
提问于2019-05-10
1
回答
网站
数据
爬虫
,发布
数据
和遍历
、
、
我需要
分析
几个网站,一旦完成,我需要发送一些
数据
给它。例如,假设网站A为我提供了一个搜索选项卡,我需要以编程方式向其提供
数据
。根据目标站点的更新,结果页可能会有所不同。我想编写这样一个
爬虫
。我已经精通
java
和C语言,所以任何基于它们的东西都会很有帮助。
浏览 1
提问于2013-03-27
得票数 0
2
回答
一个网站会被列入黑名单,如果它提供不同版本的谷歌的佩格
爬虫
和正常用户?
、
、
这个问题实际上是双重的: 是否有可能通过检测用户代理(~灯塔,其他页面
爬虫
)来欺骗分页
分析
器,并为该网站提供一个简化的、更快的版本?如果是的话,这会不会随着时间的推移而被发现,让你被列入黑名单?另外,与之相反的是,是否有可能向
爬虫
提供额外的
数据
(json-ld),而这些
数据
是您不希望加载给普通用户的?
浏览 0
提问于2019-04-03
得票数 0
回答已采纳
1
回答
用于web
分析
的
数据
集API
、
、
、
、
在
数据
挖掘视图中,我知道有Twitter API,您可以从中实现
爬虫
程序并收集
数据
。提前感谢您提供的任何信息。
浏览 3
提问于2014-08-30
得票数 1
1
回答
定期运行python程序作为防火墙中的后台服务。
、
、
我的网站的一个设计特点是爬行和显示从另一个网站
分析
的
数据
(例如,股票价格的变化)。我已经有了负责解析
数据
的python
爬虫
,但是我不知道如何(在后台)在firebase中执行服务器的这个python
爬虫
(或者根本不可能)?下面是我的系统的示例用法 用户可以从
数据
库中看到网站变更的摘要。我想到的一个选择是在本
浏览 0
提问于2018-01-25
得票数 3
1
回答
Java
/1.7.0_07作为用户代理
、
几乎每天都有东西(应该是一个机器人)访问我网站上的所有页面(除其他外,它不能正确处理urls中的空间),以
Java
/1.7.0_07 (或不同的
java
版本)作为参考。谢谢
浏览 0
提问于2012-10-17
得票数 2
回答已采纳
1
回答
如何使用首先需要获取的gatsby添加元标记
、
、
siteMetadata: { },};谢谢。
浏览 13
提问于2022-04-19
得票数 1
1
回答
Google Plus Crawler
、
我正在进行一项社交媒体
分析
,并收集
数据
集进行研究。我一直在网上搜索任何制作谷歌加
爬虫
的方法。那么,我的问题是,是否有人知道是否有可能制作一个Google +
爬虫
来收集公共帖子的信息?
浏览 2
提问于2014-02-12
得票数 0
回答已采纳
7
回答
什么是网络
爬虫
的理想编程语言?
我需要建立一个内容收集程序,将简单地读取指定网页上的数字,并保存该
数据
以供以后
分析
。我不需要它来搜索链接或相关
数据
,只需要从网站收集所有
数据
,这些网站每天都会有变化的内容。速度不是一个大问题,我估计
爬虫
一天最多要加载4000个页面。编辑:有没有办法提前测试我正在收集
数据
的网站是否受到
爬虫
的保护?
浏览 2
提问于2009-06-10
得票数 6
回答已采纳
2
回答
AWS胶爬行器是做什么的?
、
我读过AWS胶水文档re:
爬虫
在这里:,但我仍然不清楚glue
爬虫
到底做了什么。
爬虫
是否遍历S3存储桶,并创建指向这些存储桶的指针?当文档说“爬行器的输出由
数据
目录中定义的一个或多个元
数据
表组成”时,这些元
数据
表的目的是什么?
浏览 1
提问于2018-12-04
得票数 3
回答已采纳
1
回答
向远程MySQL提供
数据
的模式
、
、
我有一个“无所不包”的服务器,它是were服务器,mysql,
爬虫
服务器。由于使用监视工具的两三周时间,我发现当我的
爬虫
运行时,我的平均负载总是超过5(一个4核心服务器,可以一直使用到4.00作为负载)。所以,我有另一台服务器,我想把我的
爬虫
移到那里。我的问题是。一旦我在我的
爬虫
服务器中爬行
数据
,我必须插入我的
数据
库。我不想打开远程连接并将其插入
数据
库中,因为我更喜欢使用Rails框架,顺便说一句,我使用rails,以便更容易地创建所有关系,等等。限制:我不想运行mys
浏览 2
提问于2011-05-01
得票数 0
1
回答
如何
分析
网页
爬虫
?
、
我有一个稍微不同的版本的网络
爬虫
。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择: 同时运行它们,比较所用的时间。
浏览 4
提问于2012-09-15
得票数 0
1
回答
用于开源Lucene的索引序列步骤,使用SQL或Nosql
、
、
我想用Lucene.net来索引我网站上的
数据
和页面链接,你到底是什么时候告诉Lucene.Net开始索引的?
浏览 6
提问于2011-02-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java 爬虫遇上数据异步加载
Python 从爬虫到数据分析(二)爬虫原理
Java毕业设计基于网络爬虫的网络新闻分析参考
Python爬虫数据分析的基本概念
【Java爬虫】测测面相
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券