腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
如何在
Java
中设计一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在
Java
中设计一个网络
爬虫
,可以采取用户查询一个特定的
新闻
主题,然后访问不同的
新闻
网站,然后从这些网页提取
新闻
内容,并将其存储在一些文件/数据库中。现在我有代码从单个页面提取
新闻
内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同的页面提取内容。有没有人可以提供一些好的
Java
教程或实现的链接,我可以根据需要使用或修改这些链接?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
1
回答
如何从网站的数据库中抓取链接?
、
、
我想写一个简单的
爬虫
将链接保存在数据库(mysql)中,并使用链接在网站上公布的时间戳(而不是
爬虫
检测到链接的时间)。
爬虫
如何知道一个新的链接已经添加到该网站?例如,如果一个
新闻
网站发布了一篇新文章,而我希望我的
爬虫
立即解析链接,那么
爬虫
如何知道这一点(googlenews也能够做it...so .?)也就是说,
爬虫
是否立即知道新的文章链接?或者google只是在一个固定的时间间隔(每一小时等一次)爬行网站
浏览 4
提问于2014-06-06
得票数 3
回答已采纳
3
回答
(网络
爬虫
)如何从
新闻
网站获取
新闻
文章的文本
、
、
、
、
我要从一个
新闻
网站上得到我必须得到的1k网站内容的文本。这个网站发布每一个最新的
新闻
,新的url是在id中添加1。 汤汁?还是其他网络
爬虫
? 谢谢
浏览 3
提问于2016-06-24
得票数 0
1
回答
什么工具或语言,或者我如何才能建立像谷歌
新闻
的网站
然后阅读这些网站后,我需要过滤
新闻
e,例如与梅赛德斯奔驰相关的
新闻
,然后我需要显示在该网站上参考原始来源。目前,我知道PHP,可以在其中建立复杂的网站。
浏览 2
提问于2010-09-13
得票数 0
回答已采纳
2
回答
Google
新闻
爬虫
翻页
、
、
、
、
继续之前的工作,抓取有关查询的所有
新闻
结果,并返回标题和网址,我正在完善的
爬虫
,以获得所有的结果从所有页面的谷歌
新闻
。目前的代码似乎只能返回第一页的谷歌
新闻
搜索结果。
浏览 7
提问于2017-05-04
得票数 0
回答已采纳
2
回答
如何建立一个基于Scrapy的网络
爬虫
来永久运行?
、
、
我想建立一个基于Scrapy的网络
爬虫
,从几个
新闻
门户网站抓取
新闻
图片。我想让这个
爬虫
: 这意味着它将定期重新访问一些门户页面,以获得更新。 安排优先次序。
浏览 8
提问于2010-02-28
得票数 11
回答已采纳
4
回答
python中的网络
爬虫
数据库?
、
、
嗨,我用python编写了一个网络
爬虫
,从nytimes.com这样的
新闻
网站上提取
新闻
文章。我想知道什么是一个好的数据库作为这个项目的后端? 提前感谢!
浏览 3
提问于2010-01-27
得票数 1
回答已采纳
1
回答
谷歌如何频繁地抓取更新的网页?
有些网站是
新闻
/博客网站。如果我爬行,比方说,techcrunch.com,并存储和索引他们的首页,那么在几个小时内,我的索引该页将过时。
浏览 0
提问于2012-04-26
得票数 2
2
回答
带有最佳可定制
爬虫
和抓取器的建议
、
、
、
所以我想添加一些信息,比如关于特定领域的
新闻
(比如政治、好莱坞等)。我相信
爬虫
是最好的方法吗?如果我的理解是正确的,请建议您是否有任何其他方法来获取信息,而不使用来自各种来源的
爬虫
。现在我希望
爬虫
找到信息,规范化并存储在mysql数据库中。听起来很简单哈。但这不适合我。 因为这非常耗费资源和时间。在选择
爬虫
之前,我应该考虑哪些因素。任何提供信息和研究因素的来源在创建
爬虫
或教育
爬虫
时都需要考虑,这将是很棒的。我更喜欢用
java
编写代码,但我可以用任何其他
浏览 0
提问于2010-11-11
得票数 0
1
回答
RSS Reader,然后抓取页面内容
、
、
、
有没有免费的api可以直接在
Java
中使用URL来做这件事?现在的问题是做一小部分
爬虫
。有没有免费的轻量级api?
浏览 3
提问于2011-02-19
得票数 0
回答已采纳
2
回答
查找相似/相关文本的算法
、
、
实际上,我打算开发一个
新闻
阅读器系统,可以从网络上抓取和收集
新闻
(用
爬虫
),然后,我想在网站上找到相似或相关的
新闻
(为了防止在网站上显示重复的
新闻
)。我认为最好的活生生的例子是谷歌
新闻
,它从网络上收集
新闻
,然后对相关的
新闻
和文章进行分类和查找。这就是我想要做的。 做这件事最好的算法是什么?
浏览 0
提问于2012-09-21
得票数 4
回答已采纳
2
回答
使用noscript优化SEO
、
、
我有使用ajax加载帖子的
新闻
门户,以获得更好的用户体验。Web
爬虫
看不到javascript生成的链接和文本,所以我读到了关于为
爬虫
使用noscript标记的文章。许多SEO分析器网站现在看到了这些内容,但我不知道真正的
爬虫
像谷歌和其他。他的这是一个很好的方式,使我的内容可见的
爬虫
?我知道这很容易..。
浏览 0
提问于2015-04-22
得票数 3
3
回答
高效网络
爬虫
的语言建议
、
、
、
我正在寻找一种语言来编写一个高效的网络
爬虫
。
浏览 6
提问于2010-12-03
得票数 2
2
回答
有没有办法在python中抓取网页,让
爬虫
只抓取新的链接。
、
、
我想抓取一个网页(
新闻
),只获得最新的链接。我有一个
爬虫
代码,从一个网站获得所有的链接,需要2-3个小时来获得大约30000个链接,并在数据库中存储。如果下次运行
爬虫
程序时,我只想插入新的链接,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望
爬虫
只抓取新的链接,而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
2
回答
使用哪个网络
爬虫
将网站中的
新闻
文章保存为.txt文件?
我现在非常需要
新闻
文章来测试LSI实现(它是一门外语,所以没有常用的文件包)。所以我需要一个
爬虫
,它给定一个起始url,假设遵循所有包含的链接,并将它们的内容保存到.txt文件中,如果我们可以指定格式为UTF8,我会在天堂。我没有这方面的专业知识,所以我恳求你一些建议,其中
爬虫
用于这项任务。
浏览 2
提问于2010-02-19
得票数 1
2
回答
TYPO3:编辑内容后不要清除缓存
、
、
这会导致大量的性能问题,例如,当您有数百条
新闻
记录并编辑
新闻
详细信息页面时。 是否有一种方法可以对特定页面禁用此功能?
浏览 2
提问于2017-08-09
得票数 2
回答已采纳
1
回答
如何用基于Python的Crawler机器连接Django?
、
、
好日子,朋友们如果有人知道我可以参考的资源,你们能分享一下吗? 谢谢
浏览 2
提问于2019-10-11
得票数 0
回答已采纳
1
回答
如果我有这个网站的其他部分,我如何分离网站的一个部分?
、
、
、
我创建了一个网站与asp.NET webform应用程序,获得
新闻
网站的网址,并检查他们串联找到新的
新闻
,并保存标题,网址的
新闻
,描述到数据库中…现在我想在数据库中保存数据。我可以在Rss中找到
新闻
的描述,然后我想在
新闻
页面中找到细节。有点像
爬虫
。
浏览 1
提问于2015-01-28
得票数 1
1
回答
谷歌
爬虫
和
新闻
报价器
、
、
我在我的网站上使用jQuery
新闻
收报器。由于我主要关注SEO,我想知道google crawler是否会将不断更新的
新闻
标题视为新内容?或者我最好在网站上有一个
新闻
栏目?
浏览 2
提问于2013-02-26
得票数 0
1
回答
如何配置crawler扩展以从tt_news中排除隐藏字段?
、
、
http://www.example.com procInstrFilter = tx_indexedsearch_reindex} 结果
爬虫
还要索引隐藏的
新闻
条目
浏览 2
提问于2015-11-02
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java毕业设计基于网络爬虫的网络新闻分析参考
【Java爬虫】测测面相
IPIDEA干货|Java爬虫与Python爬虫的区别
爬虫练习-百度新闻
Java 爬虫遇上数据异步加载
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券