javaee网络爬虫_javaee语言爬虫_网络爬虫 - 腾讯云开发者社区

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

5回答

有哪些好的基于Ruby的网络爬虫？

、

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

、

有人知道谷歌机器人是用哪种编程语言编写的吗？或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

2回答

在MYSQL中删除非常非常相似的行

、

在PHPMYAdmin中，我正在运行一个网络爬虫。网络爬虫偶尔会拾取相同的urls。在网络爬虫中，它已经索引了数千个链接，我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)

浏览 1提问于2012-08-17得票数 0

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

2回答

网络爬虫的最佳数据库设计

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。我的经验告诉我，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要一些东西，比如sql server的。或者检查db中是否已经存在URL，最好的选择是。事实上，我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

1回答

在angular universal中检测网站页面中的网络爬虫

、、、

我想要检测服务器端呈现的对我的页面的当前请求- ssr来自网络爬虫或普通用户。我想在网络爬虫中做一些事情，而不是当它是用户的时候。我想在网络爬虫访问页面以获取完整数据时运行ng-in-viewport。而不是在用户使用我的页面时运行。如何检测这个东西？

浏览 4提问于2019-10-22得票数 1

3回答

如何在ABOT C#网络爬虫中获取html输出页面？

、

我正在尝试用ABOT在c#.i中制作网络爬虫，我搜索了很多例子，并添加了ABOT网络爬虫。从那我只能得到日志输出而不是超文本标记语言页面输出。我想得到超文本标记语言页面输出only.because，超文本标记语言输出是超文本标记语言敏捷工具的输入。帮助我从ABOT网络爬虫在C#中获得超文本标记语言输出。谢谢。

浏览 4提问于2013-09-12得票数 5

2回答

我需要建立一个小的搜索引擎，如谷歌使用ASP.NET MVC3。对于这一个，我还需要建立网络爬虫，其中填充搜索引擎的数据。总而言之，我需要以下内容：如何使用Asp.net MVC3和C#构建网络爬虫。我开始建立一些基本的，但我需要一些指南，资源和书籍。使用这个网络爬虫，我轮询搜索引擎的数据，并使用Lucene.Net对数据应用索引。我需要建立小型搜索引擎，搜索由网络爬虫填充的数据。请任何人有任何想法或资源或书籍。请与我们分享。

浏览 8提问于2012-11-14得票数 2

2回答

Lucene爬虫(它需要建立lucene索引)

、、

我正在寻找Apache Lucene网络爬虫写在java，如果可能的话，或在任何其他语言。爬虫必须使用lucene并创建有效的lucene索引和文档文件，因此这就是nutch被排除的原因。有没有人知道这样的网络爬虫是否存在，如果答案是肯定的，我可以找到它。Tnx..。

浏览 0提问于2009-10-16得票数 1

回答已采纳

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？我应该创建一个PHP脚本，使用cookie跟踪访问者，特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。

浏览 0提问于2013-07-27得票数 1

9回答

在创建网络爬虫时，需要考虑哪些关键问题？

我今天刚开始考虑创建/定制一个网络爬虫，对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙，所以我想从web开发人员社区获得一些最新的(和实用的)见解。我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?” 这给我带来了很多问题，但我认为我首先需要回答的两个主要问题是：从一开始就感觉有点“不确定”--这类事情可以接受吗？爬虫应该采取什么具体的考虑来不让人心烦？

浏览 17提问于2008-08-28得票数 11

回答已采纳

1回答

Rails会为网络爬虫和机器人创建会话吗？

我想知道会话是否是由网络爬虫和机器人请求的页面创建的。我使用MySQL作为会话存储，并希望防止网络爬虫和机器人的请求创建不必要的会话条目。

浏览 0提问于2011-04-03得票数 3

6回答

如何识别网络爬虫？

、

我怎样才能过滤掉网络爬虫等非人类的点击。我使用maxmind.com向IP请求城市。这并不是很便宜，如果我必须支付所有的点击，包括网络爬虫，机器人等。

浏览 3提问于2011-12-07得票数 33

回答已采纳

1回答

如何在.log文件中查找所有网络爬虫

、

我需要帮助。我需要找出如何找到.log文件中的所有网络爬虫。我不知道该找什么。我知道网络爬虫会做一些特定的事情，但是我找不到用java编程的好方法。谢谢

浏览 0提问于2014-01-20得票数 0

1回答

如何从同一网站的多个网页中发现公共信息块？

、

这是网络爬虫中的一个模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以让爬虫变得有点智能，就像只是识别和捕获信息部分。

浏览 0提问于2015-05-29得票数 0

1回答

如何使用网络爬虫从flv文件中提取内容？

、、、

我的要求是从flv文件中提取文本和音频。请建议我如何使用任何网络爬虫来实现这一点。如果这是不可能与网络爬虫，请建议我任何其他工具。谢谢你

浏览 0提问于2013-05-14得票数 0

回答已采纳

1回答

将Snort IDS与Webcrawler结合使用

、、、

我完全是Snort IDS软件和IDS概念的新手，我需要知道是否可以使用Snort来检测隐形-恶意-网络爬虫！换句话说，我可以定义snort规则来检测恶意网络爬虫吗?!！

浏览 4提问于2014-09-13得票数 0

1回答

网络爬虫会存储Cookie吗？

、

我目前正在创建一个脚本，将强制我的访问者在下载3个文件后注册/登录。我计划使用cookie来跟踪下载量。此外，我想防止内容农业从糟糕的网络爬虫。我不知道网络爬虫是否也可以像普通访问者一样存储cookie，这样我就可以阻止他们下载我的文件超过3次。如果不支持cookies的网络爬虫仍然可以下载我的文件超过3次，有没有其他方法来跟踪他们的访问量？

浏览 1提问于2013-07-29得票数 1

4回答

有已知的网络爬虫列表吗？

、、、

我正在尝试获取web服务器上某些文件的准确下载编号。我看了看用户代理，其中一些显然是机器人或网络爬虫，但许多我不确定，他们可能是也可能不是网络爬虫，它们导致了许多下载，所以对我来说知道这一点很重要。是否有一些已知的网络爬虫的列表和一些文档，如用户代理，IP，行为等？我对官方的不感兴趣，比如谷歌的，雅虎的，或者微软的，这些通常都是很好的表现和自我证明。

浏览 0提问于2009-11-14得票数 17

回答已采纳

1回答

使用R的网络爬虫

、、

我想建立一个网络爬虫使用R程序为网站""，它可以访问与地址参数的网站，然后从网站获取生成的经度和纬度。这将对我拥有的数据集的长度重复。由于我是网络爬虫领域的新手，我会寻求指导。提前谢谢。

浏览 28提问于2018-06-08得票数 -2

2回答

使用python提取网页上的URL列表的简单方法是什么？

、

我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易？感谢您提供的任何知识。

浏览 5提问于2010-11-10得票数 1

1回答

web爬虫中的索引步骤

、

我正在编写一个网络爬虫(重点网络爬虫)，其中：输入: seedsURL 输出:更大的seedsURL def crawl(seedURL, pageslimit): crawling code ... return list of urls crawled 现在我需要索引和存储数据，以方便快速和准确的信息检索(搜索引擎)。我的爬虫返回URL列表，如何将它们传递到索引阶段？我应该在文本文件中下载每个页面的内容吗？是否有一些工具或库来执行索引步骤？还是要手动完成呢？

浏览 3提问于2014-04-21得票数 0

1回答

在C#中添加延迟的最佳方法

、

我目前正在建立一个网络爬虫，并希望增加一个延迟的请求，这样我就不会击中网络服务器硬。添加此延迟的最合适方法是什么？另外，爬虫的适当延迟量是多少？我在想.5-1秒。谢谢

浏览 2提问于2013-03-28得票数 0

回答已采纳

2回答

将外部网页显示为我的应用程序中的网页

、、、、

我想在我的应用程序中以一种对SEO爬虫更快更好的方式在我的应用程序中显示一个外部网页(就像它在该站点中呈现的那样)，我想知道是否有一种使用javaee的方法？如果不是，那么什么是更好的性能和SEO，XMLHTTPRequest方式或iframes方式。如果可能的话，请提供示例代码或链接，谢谢更新:示例网站是：

浏览 5提问于2012-07-29得票数 1

回答已采纳

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

网络爬虫的BFS还是DFS？

、、、

我的任务是为搜索引擎创建一个简单的网络爬虫。现在，爬虫应该如何准确地映射网络呢？沿着他找到的第一个链接再也不回来，或者一些更高级的搜索方法，如BFS或DFS？

浏览 0提问于2012-08-02得票数 3

回答已采纳

1回答

支持windows增量爬行的Web爬虫

、、、、

我需要一个开源的web爬虫在java开发的增量爬行支持。 Web爬虫应该易于定制，并与solr或elasticsearch集成。它应该是一个积极的，正在进一步发展，更多的特点。孔径是一个很好的爬虫，它有我提到的所有功能，但它不是一个活动的爬虫，由于许可(如果我使用它的商业目的)，他们的依赖性，我忽略了。 Nutch -一个网络爬虫，有更多的hadoop支持功能。但是我浏览了很多网站和教程，没有合适的文档，api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码，但它在运行map时会导致许多错误，减少作业。nutch没有java来实现类似孔径的功能

浏览 4提问于2014-09-22得票数 1

回答已采纳

1回答

如何在没有robots.txt的情况下阻止机器人

、、

正如我们所知道的，robots.txt帮助我们避免网络爬虫/机器人对某些网页/部分进行索引。但是使用这种方法有一定的缺点: 1.网络爬虫可能不会监听robots.txt文件；2.你将你想要保护的文件夹暴露给每个人；还有另一种方法可以阻止你想要保护的文件夹免受爬虫的攻击吗？请记住，可能需要从浏览器(如/admin)访问这些文件夹。

浏览 0提问于2012-05-02得票数 1

2回答

需要web爬网帮助

嗨，我正在完成我的一个小爱好项目，创建一个小型搜索引擎。我想知道是否有人知道他们使用过的一个像样的健壮的开源网络爬虫？新手应该很容易安装和使用。感谢您没有搜索网络爬虫和粘贴列表。

浏览 2提问于2010-02-21得票数 4

1回答

使用多个EC2实例爬行

、

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。因此，在这一点上，我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。我在想用小的，分开的爬行器：有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip，我就有更好的网络利用率。我可以旋转几个爬虫或缩小规模取决于我目

浏览 2提问于2015-01-08得票数 0

回答已采纳

1回答

Web Crawler -找不到对象

、、、

我正在用asp.net开发一个网络爬虫。我的网络爬虫有一个主页，它从HREF标签打开其他HTML页面，下载HTML页面并获取数据。现在的问题是，有时我会得到一个对象引用找不到的异常，有时代码运行得很好。

浏览 1提问于2014-01-06得票数 0

3回答

网络爬虫的更新间隔是多少？

、

我目前正在做我自己的网络爬虫，我想知道… 网络爬虫再次访问相同站点的合适间隔是多少？你应该每天重温一次吗？每小时一次？我真的不know...has任何人在这件事上的一些经验？也许有人能给我指个方向？

浏览 0提问于2010-07-10得票数 1

回答已采纳

2回答

使用Web Crawler爬行Web数据

、

我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业，项目演示文稿等。我的问题是，我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗？下载它们之后，我想为它们创建一个索引，以便查询文档集。用户可以使用我的应用程序作为搜索引擎。爬虫能做到这点吗？我知道webeater (用Java编写的Crawler )

浏览 1提问于2011-03-30得票数 1

回答已采纳

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

我在试着了解网络爬行是如何工作的。有三个问题：我们是否必须有一个初始的URL目录来构建一个更大的URL目录？这是怎么回事？有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

、、

我有一份大概的清单。52个网站，这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。在积极的一面，我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？我已经知道我想要的信息，这些网站很少在其网站结构方面进行更新，而且大多数网站都有需要下载的文档。或者，有没有更好的解决方案，可以减少我需要构建的网络爬虫的数量？此外，这些网络爬虫将仅用于下载我针对的网站的新信

浏览 3提问于2019-04-29得票数 0

1回答

Scrapy:没有主机路径，并且启用了持久支持

、、

如果我运行的爬虫与持久支持启用，我暂时松散的互联网连接。爬虫是否会重试那些在临时网络丢失期间获得无主机错误路由的URL？

浏览 2提问于2014-01-21得票数 1

回答已采纳

1回答

在spring boot中通过REST api处理提交的耗时任务的最佳方法

、、、、

我有一个春天启动网络项目，需要与网络爬虫系统的工作。我的爬虫服务在没有任何停机时间的情况下工作，每个爬虫请求可能有很长的处理时间。我想通过一个REST接口获取抓取的URL。我的web应用程序中的用户将URL列表提交给web应用程序，我想向他/她显示:您的请求已提交。完成此请求的爬网后，我希望更新web表单中的请求状态。实现此场景的最佳方法是什么？

浏览 32提问于2020-10-22得票数 1

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2提问于2013-03-18得票数 3

2回答

网络爬虫-忽略Robots.txt文件？

、、、

一些服务器具有robots.txt文件，以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

浏览 1提问于2011-12-05得票数 14

回答已采纳

1回答

学习多线程Java爬虫的良好开端

、、

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot许多不必要的特性(bloats)Ability很容易集成到我的项目中。

浏览 1提问于2012-04-16得票数 0

回答已采纳

3回答

robots.txt不允许的属性

我已经禁止对所有爬虫使用robots.txt的某些页面。我是否必须为这些文件编写元标记，或者网络爬虫将直接跳过它们，因此没有必要这样做？

浏览 3提问于2012-03-31得票数 0

回答已采纳

3回答

如何在Django中处理网络爬虫？

、

由于网络爬虫在没有任何请求数据的情况下访问了我的网站的某些部分，我收到了很多发送到我的电子邮件中的错误，我想知道在Django中处理网络爬虫的最好方法是什么？当我遇到一个空的QueryDict时，我应该发出一个重定向吗？

浏览 0提问于2010-12-19得票数 2

回答已采纳

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

2回答

在网页上使用按钮。谷歌会索引他们的链接吗？

、

我想在我的页面上使用标准按钮的外观，但我希望网络爬虫能够像它们是链接一样跟随它们。谷歌和其他网络爬虫会索引这样的链接的网页吗？ <form method="get" action="/mylink.html"><input style="font-size:10pt" id="my-link" type="submit" value="Learn More..." /></form> 如果没有，有没有其他使用标准按钮的方法？

浏览 0提问于2009-04-25得票数 1

回答已采纳

1回答

使用多线程改进网络爬虫/爬虫

、

我已经开始学习网络爬虫，在一篇文章的帮助下，我构建了下面这个简单的爬虫。它建议使用多线程来改进和提高网络爬虫的速度。我想知道是否有人可以帮助我学习更多关于多线程的知识，甚至可以将其应用到下面的爬虫中。此外，如果您有任何其他建议或改进，请随时分享这个爬虫。代码如下： error_reporting( E_ERROR ); define( "CRAWL_LIMIT_PER_DOMAIN", 50 ); $domains = array(); $urls = array(); function crawl( $url ) { global $domains,

浏览 3提问于2013-03-10得票数 0

回答已采纳

3回答