如何让爬虫从相对路径中提取信息？

爬虫从相对路径中提取信息，主要涉及到网页解析和路径处理两个方面的知识。

基础概念

网页解析：爬虫需要解析网页的HTML或XML内容，以找到所需的数据。这通常通过使用解析库（如BeautifulSoup、lxml等）来实现。
相对路径：相对路径是相对于当前文档位置的路径。例如，./表示当前目录，../表示上一级目录。

类型

绝对路径：直接指向目标资源的完整路径。
相对路径：相对于当前文档位置的路径。

应用场景

爬虫在抓取网页时，经常需要处理链接和资源的位置。
当网页结构发生变化时，相对路径可以帮助爬虫更稳定地抓取数据。

遇到的问题及解决方法

问题：爬虫无法从相对路径中正确提取信息。

原因：

路径解析错误：爬虫可能没有正确解析相对路径。
网页结构变化：目标网页的结构可能发生了变化，导致相对路径失效。

解决方法：

使用解析库：利用BeautifulSoup或lxml等解析库来正确解析HTML内容，并提取相对路径。
路径转换：将相对路径转换为绝对路径。这可以通过拼接当前页面的URL和相对路径来实现。
错误处理：在爬虫代码中添加错误处理逻辑，以应对网页结构变化或路径解析错误的情况。

示例代码

以下是一个使用Python和BeautifulSoup库从相对路径中提取信息的示例代码：

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# 发送HTTP请求获取网页内容
response = requests.get('https://example.com')
html_content = response.text

# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')

# 假设我们要提取一个相对路径的链接
relative_path = soup.find('a')['href']

# 将相对路径转换为绝对路径
absolute_path = urljoin('https://example.com', relative_path)

print(absolute_path)

参考链接

通过以上方法和示例代码，你应该能够更有效地从相对路径中提取信息。

谷歌网站管理员工具的数据来源是什么？

谷歌网站管理员工具从哪里获得所有的数据？它是与谷歌分析等配对，还是纯粹是爬虫和搜索它显示？

浏览 0提问于2010-07-12得票数 4

回答已采纳

1回答

我有一个问题，关于Nutch如何获得链接来更新爬行数据库。所讨论的命令是bin/nutch updatedb crawl/crawldb $s1 我需要编写一个自定义解析器，在这样做之前，我已经检查了Nutch的源代码，就我而言，我负责提供更新爬虫数据库的链接，方法是从文档中提取它并在ParseData中以ParseData的形式插入它。至少这是我从了解到的。如果我错了，请纠正我，因为我不希望我的爬虫在第一次迭代之后停止，因为它没有链接来更新爬虫数据库。

浏览 1提问于2017-07-06得票数 0

回答已采纳

1回答

facebook开放图和AngularJs

、、、、

我正在尝试在我正在开发的AngularJs应用程序中添加开放图形功能。我希望我的应用程序的用户与他们的Facebook好友共享一个URL。我理解共享工作，您需要添加打开图形元数据标签到页面(网址，描述，图像，标题等)。我需要用户共享的URL是动态的，具有以下结构：其中1118是游戏的Id要共享。下面这篇文章描述了如何在一个有角度的应用程序中实现社会共享：然而，本文指出Facebook爬虫不能呈现动态内容。因此，当Facebook爬虫访问时，我需要将请求重定向到我的服务器，以生成正确的打开图元标记。我正在使用IIS (本文解释了如何通过Apache实现这一点)。这是我重写的规则：

浏览 2提问于2015-01-06得票数 3

5回答

PHP表单操作不重定向

、、

我开发了一个网络爬虫来搜索我公司网站上的某些标签，以确保它们是实时的，有谷歌分析，诸如此类。然而，我的公司有近百个网站，所以实际的抓取过程，实际上是一个抓取过程。所以我想创建一个表单，用户输入我们其中一家公司的网址，它只抓取一个网站。我不擅长表单，所以我基本上希望表单做的是存储用户输入的url，然后重定向到一个不同的页面，在那里url被提供给爬虫程序并显示结果。这基本上是我到目前为止所拥有的，没有太多，我在重定向到不同的页面并存储URL变量时遇到了问题，这样我就可以将它传递给我拥有的爬虫代码。 <div id="main-content" class="mc-le

浏览 1提问于2012-07-26得票数 1

回答已采纳

1回答

如何获取页面内容

、、

我正在尝试使最近的新闻，如我的网站的功能。为此，我做了一个网络爬虫，到目前为止，我可以通过执行以下操作从页面收集链接 $dom = new domDocument; @$dom->loadHTML(file_get_contents($url)); $dom->preserveWhiteSpaces = false; $linksToStore = $dom->getElementsByTagName('a'); foreach($linksToStore as $tag){ $links[$tag->getAttribute('hre

浏览 1提问于2012-11-25得票数 0

2回答

如何为scrapy编写规则以添加访问过的urls

、、

当scrapy关闭时，它会忘记所有的urls。我想给scrapy一组网址，已抓取，当它是开始。如何向爬虫添加规则，让爬虫知道哪些urls被访问过？当前函数： SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫抓取哪个

浏览 0提问于2012-11-28得票数 3

3回答

Google和Bing抓取器是否将URL中的哈希标记作为获取参数？

爬虫一般认为和是两个不同的URL。 Google和Bing爬虫如何考虑哈希标签URL，如根据，哈希标签之后的所有内容都被忽略了。还有其他消息证实这一点吗？

浏览 5提问于2011-06-16得票数 6

回答已采纳

2回答

爬行时管理URL的常见方法是什么？

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。示例：爬虫1找到一个包含100个URL的页面。爬虫2找到一个没有任何URL的页面。爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中一旦Queue变得太大(例如，最大大小的80% )，就将URL外包给数据库让Crawler保存Analyzer，并在之后

浏览 5提问于2011-12-28得票数 0

回答已采纳

1回答

在C#中添加延迟的最佳方法

、

我目前正在建立一个网络爬虫，并希望增加一个延迟的请求，这样我就不会击中网络服务器硬。添加此延迟的最合适方法是什么？另外，爬虫的适当延迟量是多少？我在想.5-1秒。谢谢

浏览 2提问于2013-03-28得票数 0

回答已采纳

2回答

为垂直搜索引擎开发爬虫和爬行器

、、、

我需要开发一个垂直搜索引擎作为网站的一部分。搜索引擎的数据来自特定类别的网站。我想我需要一个爬虫来抓取几个(几百个)站点(在一个特定的业务类别中)，并提取产品和服务的内容和urls。其他类型的页面可能无关紧要。大多数网站都很小或很小(最多只有几百个页面)。产品有10到30个属性。任何关于如何编写这样的爬虫和提取器的想法。我使用常见的ruby库编写了一些爬虫和内容提取器，但不是一个完全成熟的搜索引擎。我猜，crawler会时不时地从网站上唤醒并下载页面。当然，通常的礼貌行为，比如检查机器人排除规则，都会得到遵守。而内容提取器可以在它读取页面之后更新数据库。如何同步爬虫和提取器？它们应该紧密地集

浏览 3提问于2009-07-05得票数 6

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

1回答

Atlassian竹-使用JMeter聚合器插件显示JMeter测试结果

、、、

我的任务是在本地构建的流浪服务器上安装并解决如何使用竹的JMeter聚合器插件，在我的机器上安装竹，这样我就可以在将其应用到我正在处理的竹子实例的项目之前学习如何使用它，但是我想不出如何让聚合器插件真正正确地读取任何测试结果，这样它就会使断言失败。目前，我刚刚通过gui客户机设置了一个JMeter测试，并将.jmx保存到我的.jmx文件夹中的迷航服务器上，这样我就可以从bash脚本中运行它，并将结果发送到另一个目录中的.jtl文件中。下面是bash脚本：我已经安装了聚合器插件，并将其指向结果的.jtl文件，但是当我尝试在其上放置任何断言时，它会破坏构建，并说断言失败是因为值为0，实际

浏览 1提问于2015-11-16得票数 0

3回答

如何让爬虫忽略我的免责声明

、

我在我的网站上有一个免责声明，在一个会话中显示一次。一旦点击，你将被允许进入某个部分，它将在你的会话中被记住，这样它就不会再次困扰你。问题是，我根本不想让爬虫遇到免责声明。它所做的就是忽略了Googlebot用户代理。但是还有许多其他的爬虫，我希望他们也忽略这一点。这是唯一的解决方案吗？通过爬虫的UA来识别爬虫？如何检测cookie -如果我没有cookie，这意味着它是一个爬虫？谢谢

浏览 1提问于2011-12-14得票数 1

回答已采纳

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

、、、

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？从安全的角度来看，服务器端渲染和客户端渲染哪个更好？我也为react读到了同样的东西。

浏览 18提问于2019-09-15得票数 0

2回答

模块id从角2中移除？我尝试过用moduleId:module.id为我工作，但在angular2.0中

我尝试过用moduleId:module.id为我工作，但是在angular4.o模块id是否必须用组件编写？模块id从角2中移除？

浏览 2提问于2017-04-17得票数 1

回答已采纳

1回答

StormCrawler设置

、、、

关于StormCrawler：，我有几个问题 1.拒绝商店爬行：我尝试在默认的-regex-filters.txt：-(shop)中使用这个regex。这样做对吗？因为风暴爬虫仍然抓取那些在其网址中有“商店”的网站。 2. "maxDepth“参数是做什么的？我需要的可能性，以限制每个网站的爬行深度，例如，只要抓取的网页是“一次点击/水平”远离/home网站。这是那个用例的正确参数吗？如果没有，我们在哪里可以选择呢？ 3. Elasticsearch:发现和获取的我会明白，发现的东西总是比取出来的要大。但我有一些案子是被取出来的。对此有什么解释吗?或者发现了什么?获取到底意味着什

浏览 0提问于2018-03-23得票数 0

回答已采纳

1回答

从现有的AWS Glue Crawler获得Cloudformation

、、、、

是否有方法从现有的AWS Glue Crawler创建/获取/检索cloudformation资源json/yaml？如果是的话，我怎么得到它。如果没有，如何从我现有的Crawler中创建一个？编辑：实际上，我们正在尝试从手动配置的爬行器转移到一个爬行器，该爬虫是通过cloudformation部署的，这样就可以轻松地维护它。我们有几个爬虫，需要迁移它们。因此，这个问题。

浏览 0提问于2019-04-26得票数 1

1回答

从具有不同结构的不同域(主要是)抓取多个单页面

、、、、

我有一个非常具体的urls列表，我需要从其中抓取数据(不同的选择器/字段)。总共有大约1000个来自大约300个不同网站的链接，它们具有不同的结构(选择器/xpath)。我正在尝试看看是否有人对如何做到这一点有任何建议。我在网上寻找解决方案，可以看到人们推荐Python和Scrapy。虽然我对这些了解不多，并且仍然在努力理解，但我从网络上发现的似乎如果我使用Scrapy/Python来做这件事，看起来我将不得不为每个链接创建一个单独的爬虫(至少是具有不同结构的)。我也查看了Scrapy的通用爬虫方法，并尝试将它们用于我的情况，但它们不起作用。我想要提取的示例链接和字段如下所示，其中"

浏览 0提问于2018-08-22得票数 2

2回答

如何自动运行python脚本

、、

如何自动运行3个python脚本。假设我有3个脚本，分别是a.py、b.py和c.py。在这里，a.py运行一个网络爬虫，并将其另存为xml文件。现在，b.py解析生成的xml文件并另存为pickle文件。现在，c.py将列表从pickle文件插入到数据库。有没有办法让这一切自动化呢？

浏览 0提问于2012-02-01得票数 4

1回答

Crawler读取pdf文件

、、

我正在尝试创建一个爬虫，可以读取pdf，并从中提取某些信息(保存在数据库中)。但是，我不确定要使用哪种方法/工具。我最初的想法是使用PhantomJs，但在阅读了很多之后，它似乎没有这个功能。如果我想使用Phantomjs，我将不得不下载pdf，将其转换为HTML页面，然后使用Phantom抓取它，这似乎是一项乏味的任务，应该能够更快地完成。所以我的问题是，我如何从在线资源中阅读pdf并收集这些信息？

浏览 1提问于2017-09-05得票数 0

1回答

AWS Boto启动实例，部署Docker映像，运行和终止

、、、

我有一个网络爬虫，是一个码头形象。我想使用boto创建一个EC2实例，部署我的爬虫，运行这个爬虫，然后在它完成后终止这个实例。我现在的想法是：使用包含Docker的AWS启动新的EC2实例。 SSH在实例中使用类似Fabric的内容并安装Docker。使用相同的SSH连接来运行我的命令来启动爬虫使Web在完成时删除自己的实例。以下是一些细节：我真的需要使用像Fabric这样的工具来对我的实例进行SSH并运行命令吗？如何选择当前运行脚本的实例？如果您愿意，可以使用self实例。有更好的方法吗？

浏览 0提问于2018-03-19得票数 2

5回答

sharkscope或PTR数据究竟是如何挖掘所有这些手的呢？

、

我非常想知道这个过程是如何工作的。这些网站(和)每天从PokerStars和Full Tilt等安全扑克网络中挖掘数以千计的数据。他们是否有一个运行应用程序的服务器群，这些应用程序打开数百个表(窗口)，然后以某种方式对正在玩的牌进行爬虫/数据挖掘？在编程方面，这是如何工作的？

浏览 0提问于2010-10-25得票数 19

回答已采纳

6回答

爬虫vs刮板

、、

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

1回答

相对URL混淆了Google爬虫

、

我有一些奇怪的问题，显然是由谷歌爬虫产生的。Bing不是这些错误，所以有点让人困惑。问题似乎是因为相对的联系。 Google爬虫将此URL报告为它发现的内容： http://example.com/event_comments/ChupacabraCon/eedit/event_comments/Siege_of_Augusta/event_comments/Genghis_Con_XXXV/91 但是，这并不是由站点生成的URL。以下是： http://example.com/event_comments/Genghis_Con_XXXV/91 我很困惑为什么Bings爬虫在Google的

浏览 0提问于2014-01-22得票数 4

回答已采纳

1回答

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

、、、、

问题我有一个静态的SPA网站构建的角度，并托管在亚马逊S3。我试图让爬虫可以访问我的预渲染页面，但是我不能重定向爬虫请求，因为Amazon没有提供S3重写选项，而且重定向规则是有限的。我所拥有的我向<head> of index.html页面添加了以下元标记： <meta name="fragment" content="!"> 另外，我的SPA使用了带有#推送状态的漂亮URL(没有散列HTML5符号)。使用此设置，当爬虫找到我的http://mywebsite.com/about链接时，它将向http://mywebsite.c

浏览 3提问于2015-09-07得票数 6

回答已采纳

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

1回答

使用Jsoup (链接中的链接)的网络爬虫(NYTimes)

、、

我被分配了一项任务，通过“纽约时报”网站爬行，并使用网络爬虫的概念显示该网站上最喜欢，分享等文章。我已经利用JSOUP从纽约时报的主页上提取了所有链接。代码如下： public static void processPage(String URL) throws IOException { Document doc = Jsoup.connect(URL).get(); Elements questions = doc.select("a[href]"); for(Eleme

浏览 0提问于2014-04-04得票数 0

10回答

如何编写爬虫？

我曾经想过尝试写一个简单的爬虫，它可以爬行，并为我们的NPO的网站和内容生成一个搜索结果列表。有没有人对如何做到这一点有什么想法？你从哪里开始抓取爬虫？它是如何传回它的发现并继续爬行的呢？它如何知道它找到了什么，等等。

浏览 5提问于2008-09-19得票数 64

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

1回答

如何让Scrapy只抓取Xpath中的链接？

、、

我是Scrapy的新手，我想做的是做一个爬虫，它只会跟踪给定start_urls上的HTML元素中的链接举个例子，假设我只想让一个爬虫程序遍历start_urls设置为的AirBnB清单我不想抓取URL中的所有链接，而是只想抓取xpath中的链接目前，我正在使用以下代码来抓取所有的链接，我如何才能使其仅抓取//*[@id="results"] from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem from scrapy.contrib.sp

浏览 0提问于2012-12-25得票数 6

回答已采纳

2回答

Java访问互联网搜索？

、

我想知道怎么可能有一个java程序搜索Google。例如，我想要写一个程序，用户可以在其中输入resteraunt的名字，然后让程序在Google上搜索这个名字，找到地址，然后返回它。我确实认为这是可能的，因为我知道一些程序是网络爬虫。但我想知道如何学习具体的代码或编写方法，因为我根本不确定从哪里开始。谢谢。

浏览 2提问于2012-08-02得票数 0

3回答

HtmlAgilityPack和大型HTML文档

、、

我已经建立了一个小爬虫，现在当我尝试它时，我发现当我的爬虫爬行某些网站时，我的爬虫使用了98-99%的CPU。我使用dotTrace查看问题所在，它为我的httpwebrequest方法指明了方向--在之前关于stackoverflow的一些问题的帮助下，我对它进行了一些优化。但问题仍然存在。然后我去看看是什么URL导致了CPU负载，并发现实际上是网站的大小非常大-去图:)所以，现在我99%确定它与以下代码段有关： HtmlAgilityPack.HtmlDocument documentt = new HtmlAgilityPack.HtmlDocument(); HtmlAgility

浏览 0提问于2012-10-10得票数 2

回答已采纳

2回答

PHPCrawl可以用于抓取网站吗?与Scrapy有何不同？

、、、、

我想刮几个网站，很多人建议使用Scrapy。它是基于Python的，因为我非常熟悉PHP，所以我寻找了替代方案。我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。它怎么能和Python上的Scrapy相比呢？请建议我哪一个是最好的用来抓取网站。谢谢

浏览 0提问于2012-11-22得票数 0

回答已采纳

2回答

在Go测试期间处理Viper配置文件路径

、

所以我有一个非常基本的配置，让Viper从我的基目录中读取一个.env文件。如果没有.env文件，我会致命地终止进程。当我的应用程序正常运行时，一切都很顺利。当我使用go test -v ./..运行测试时，测试框架似乎进入了每个文件的目录，并且每次都调用我的config init()函数，因此viper.AddConfigPath(".")指向了错误的位置。这是我的目录结构： / /restapi items.go items_test.go /util env.go main.go .env env.go package util

浏览 97提问于2021-03-18得票数 3

回答已采纳

1回答

AWS crawler表位置

我目前正在学习aws glue，第一部分似乎是使用爬虫来查找表模式。我在S3里有几个桶。其中一个称为dgt-raw。它有一个csv文件，路径为dgt-raw/account1/account1/account1-data.csv 我有一个爬虫，它有一个包含路径s3://dgt-raw/。它发现文件是ok的，但没有正确地提取名称，它将其命名为与存储桶相同的名称，并且位置也不正确？名称原始数据描述数据库dgt- dgt_raw -db分类csv位置s3://dgt-dgt_raw/ 我原本希望它给出的名称是"account1-data.csv“，位置是s3://dgt-raw//ac

浏览 1提问于2018-04-10得票数 0

1回答

使用nodejs从页面中获得规范化或查找标题

、、、、

我使用var tmp_title = $('title').text();和cheerio.js从页面中获取标题。问题是，是否有任何东西可以使字符串正常化或删除\n\t或\n等html实体？示例 \n\t defense.gov news article: thousands lay wreaths at arlington cemetery gravesites\n 转到 Thousand lay wreaths at arlington cemetery gravesites 还是有办法从一页中获得标题？既然标题在<h3>标签上，或者谷歌爬虫从<tit

浏览 2提问于2013-12-20得票数 0

回答已采纳

2回答

使用Zend Lucene搜索未找到匹配项

、、

因此，我一直在编写一个爬虫脚本，使用Zend Lucene搜索为我的网站上的所有页面建立索引。我已经能够让脚本工作，但由于某种原因，将找不到页面上的其他链接。问题似乎出在脚本命中find方法时： $hits = $index->find('url:'.$targets[$i]); 当我执行脚本时，数组中没有匹配项，因此爬虫程序只对起始URI进行索引。有什么办法可以让我试试吗？

浏览 3提问于2009-05-23得票数 0

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

如何阻止用户在Azure DevOps中直接从功能分支创建到主分支的PR (拉取请求)

、、

如何在Azure DevOps中阻止从'feature‘分支到'main’分支的直接拉取请求创建？(阻止不必要的PR创建)。开发人员可以创建从功能分支到开发分支以及从开发分支到主分支的pr。但是从特征到主分支的直接PR的创建需要被阻止/禁用。详细说明：应该阻止/阻止用户尝试创建直接从'feature‘到'main’分支的拉取请求。如果可能，应该警告用户:不允许从功能分支到主分支直接创建PR。例如:A-功能分支，B-开发分支，C-允许主分支A到B，允许B到C，但不允许A到C。我们可以通过在分支级别添加策略来阻止合并到分支。我们如何在Azure DevOps中

浏览 40提问于2021-09-22得票数 0

3回答

使用AWS Glue Crawler指定SerDe序列化库

、、、

每次在现有数据上运行胶水爬虫时，它都会将Serde序列化库更改为LazySimpleSerDe，这不能正确分类(例如，对于带有逗号的引用字段) 然后，我需要手动编辑Glue目录中的表详细信息，以将其更改为org.apache.hadoop.hive.serde2.OpenCSVSerde。我试过做我自己的csv分类器，但没什么用。如何让爬虫为生成或更新的表指定特定的序列化库？

浏览 0提问于2019-08-14得票数 9

1回答

如何从Nutch爬行网页数据库中获取XML格式的信息

、、、

我正在尝试建立图书聚合门户。Nutch为我提供了优秀的网络爬虫，但我想要非常具体的信息，如书名，书价，ISBN，作者等。如何从爬虫页面提取这些信息？如果可能的话，我想以XML格式获取这些信息。除此之外，我想问一问，这是不是正确的做法！用其他开源软件能更好地做到这一点吗？

浏览 0提问于2013-04-10得票数 1

回答已采纳

1回答

如何有效地运行python web爬虫

、、、

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

1回答

如何解决“没有模块名为proxy”的错误？

、

我正在学习爬虫，在一些基本的爬虫之后，我尝试从github下载谷歌学者爬虫大师，看看它是如何运行的，在几个我可以修复的错误之后，我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件，from proxy import PROXIES行是问题)。这段代码有一些问题，其中包含python 3.x版本中不再支持/建议的解决方案，包括后来被重命名/移动的模块，但我无法确定这是否也是这种情况，希望能得到帮助。

浏览 3提问于2018-03-07得票数 0

1回答

Context.xml中的相对路径

、、

是否有一种方法可以在web应用程序的docBase属性中设置相对路径，因此它位于tomcat服务器实例的appBase目录之外？我希望能够在计算机之间共享上下文配置，并让应用程序生活在目录中，而不是war文件中。这样，我就可以将类直接编译到该目录中(在我的项目开发目录中)，并让tomcat使用这些类，而不需要任何复制/打包。我使用的是tomcat 8.0.0-RC5。我的目录布局是： /home/david/projects/frontend/web-content <-- the static html files /home/david/projects/fro

浏览 2提问于2013-10-22得票数 6

回答已采纳

1回答

获取HTML格式的数据模式

、、、

我的目标是写几行R代码，让我可以从获取:航空公司，出发和到达airportS，出发和到达timeS，价格。我决定使用爬虫程序包()，但由于没有使用HTML语言的经验，我不知道如何设置ExtractXpathPat选项来获取数据。 Rcrawler(Website = "https://www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&

浏览 0提问于2017-12-16得票数 0

1回答

如何从项目文件夹中获取mdb文件的路径

、、

我使用.mdb文件作为数据库来保存在c#中设计的表单的信息。目前，我的.mdb文件在我的项目文件夹中。有人能帮助我如何获得文件的路径吗?因此，当其他系统的项目被移动时，它会自动消耗路径，因为我发现下面的代码没有任何进展。 string filelocation = "~/DB/Practice.mdb"; string constring = @"Provider=Microsoft.ACE.OLEDB.12.0;Data Source="+filelocation+"";

浏览 3提问于2016-05-15得票数 1

1回答

从整个WebSite中提取所有URL

、、

我想抓取一个网站使用C#或VB.NET。我希望爬虫从网页中提取网址，我也希望爬虫遵循网址，以便我能够从网站中提取所有的网址。我该怎么写呢？

浏览 1提问于2011-04-06得票数 0

1回答

刮擦:为什么要用管道？

、、、

我在Scrapy+Splash有一个工作的爬虫。它在许多页上发射一只蜘蛛。每个页面都包含一个链接列表。对于每个页面，蜘蛛会下载该页面，其中一些页面是从该页面链接的(而不是递归的)。所有的页面都保存在文件系统中。这个系统运行得完美无缺。目前，我正在重构它以添加一些DB交互。我不使用项，也不使用项管道。使用它们有什么好处？添加一些信息:我的爬虫的目的是下载整个页面(在html，png，或转换为txt使用库)。一旦爬行器有了要保存的response，它就会将它传递给一个封装了所有io操作(文件系统和DB)的库。因此，在这种情况下，它比使用项目(转换用样板)和管道更简单。所以我的怀疑在哪里？我不知道

浏览 2提问于2017-08-08得票数 1

回答已采纳

1回答

如何在雅典娜获得克劳勒的最后一次运行日期？

、、、

我有AWS Glue Crawler，它每天运行两次，并在雅典娜中填充数据。 Quicksight从雅典娜获取数据并显示在仪表板上。我正在实现LastDataRefresh (日期时间)，以便在Quicksight仪表板中显示。有什么方法可以让我得到最后一个爬虫运行日期时间，以便我可以将它存储在雅典娜表中并显示在Quicksight中？任何其他建议也是受欢迎的。

浏览 12提问于2021-12-10得票数 1

回答已采纳

3回答