使用SelectorGadget和RVest提取底层的html，而不是我想要捕获的文本

文章/答案/技术大牛

发布

0回答

r、web-scraping、rvest

我正在尝试从basketballreference.com中提取一列数据，这一列是特别的：使用selectorGadget，我可以突出显示页面中我想要的部分，然后它会给我一个参数，让我把html_nodes然而，我试图提取球员的名字，但是当我复制并粘贴selectorGadget的输出时，它给出了名字所包含的</em

浏览 1提问于2017-06-12得票数 0

回答已采纳

1回答

R:抓取URL中的多个表

r、httr

我正在学习如何在R中使用httr和XML从网站上抓取信息，我正在让它在只有几个表的网站上工作得很好，但在有几个表的网站上就搞不清楚了。以pro-football reference中的以下页面为例：URLreadHTMLTable(rawToChar(URL$content), stringAsFactors=F) length(AllTa

浏览 1提问于2017-09-04得票数 0

1回答

脸书上的R，rvest和selectorGadget

html、r、facebook、web-scraping、rvest

我对脸书上的rvest有意见。我之前用过很多关于R的东西，所以我理解了例如html_nodes是如何工作的。我总是使用SelectorGadget，一切都能正常工作。这一次，SelectorGadget在Facebook网站上不起作用，所以我不得不处理html。假设我有这个网站的，我想提取文章的</e

浏览 1提问于2015-12-18得票数 2

1回答

R:发布搜索表单和抓取结果

r、rcurl

我是一个网络抓取的初学者，我还不熟悉我试图解决的问题的命名。尽管如此，我已经详尽地寻找了这个特定的问题，但没有成功地找到解决方案。如果它已经在其他地方，我提前道歉，并感谢您的建议。在报纸网站中搜索特定关键字；为我提供所需数量的结果/页面的标题、日期和内容。"ca

浏览 0提问于2014-08-03得票数 0

1回答

R:从工作门户中抓取Web

r、rvest

我没有办法尝试从求职门户网站上抓取数据。基本的rvest加上xml2包的使用不会让我达到提取职称、公司、地点、发布日期以及工资下限和上限的目标。下面是我编写代码的原始开始。library(dplyr)library(xml2) Data <- read_html("https://gehalts

浏览 20提问于2021-10-10得票数 0

1回答

Rvest刮除返回空字符

r、web-scraping、rvest、pubchem

目前，我希望使用R (主要是name、CAS Number和molecular weight )从化学数据库中获取一些数据。但是，我很难获得rvest来提取我正在寻找的信息。这是我到目前为止掌握的代码：library(magrittr) # I am using this format#

浏览 2提问于2017-08-05得票数 2

回答已采纳

2回答

如何从URL读取表并将其保存为数据格式？

r、url、dataframe、read.table

我想从url中读取一张表，并将其保存在R中作为数据格式。网址是：library(RCurl) b = read.tableNo such file or directory 我还尝试以txt的形式下载文档，并将其保存在mi PC中。但是，生成txt的结果是一个向量，而<e

浏览 1提问于2017-11-10得票数 3

回答已采纳

1回答

用rvest抓取图像标题

r、css-selectors、rvest

我试图使用R和SelectorGadget中的rvest包来识别我的CSS选择器，从Glassdoor ( API只提供摘要评级)中提取单个评级。问题是玻璃门使用图像来传达评级，但是数字评级包含在图像标题中。使用SelectorGadget，我可以从下面的代码片段(使用“#EmployerReview未修饰的li")中

浏览 2提问于2015-02-05得票数 2

回答已采纳

2回答

Web抓取基于IIS的网站

r、web-scraping

我正在使用R从上抓取一张桌子。library(rvest) OPMpage <- read_html("https://www.opm.govdata-analysis-documentation/federal-employment-reports/h

浏览 1提问于2016-02-29得票数 6

1回答

在两个跨间刮取数据

python、css、xpath、scrapy、web-crawler

我正在刮一个网页，并想得到所有产品的价格信息，在第一页。下面是网页的html。我想要99块。<i>.99</i> </div> </div>我不认为我可以使用def价格

浏览 3提问于2020-07-13得票数 2

回答已采纳

1回答

如何正确识别特定的值以使用rvest进行解析

r、rvest

亲爱的集体智慧我需要循环遍历表的所有节点并逐个提取它的值。然后迭代到下一页并重复。我打算单独读取表值，因为我需要在代码中添加一个变体循环--对于每一行，如果"Data urodzenia“列中的值等于”，则程序应该输入与该行对应的网页，然后提取其他值(标记为"Rocznik")。就目前而言，<em

浏览 6提问于2021-12-16得票数 0

回答已采纳

2回答

如何使用R在html中的注释标记内刮表？

r、web-scraping、html-parsing、scrape、rvest

我正在尝试使用rvest从中获取数据。我使用了selectorgadget，并发现标记为我想要的表的#高级。但是，我注意到它不是捡起来的。查看页面源代码，我注意到这些表位于html注释标记<!从注释标记中获取表的最佳方法是什么？谢谢! 编辑:我正在尝试拉出“高级”表：

浏览 5提问于2016-11-15得票数 6

回答已采纳

2回答

查找要在页面中使用rvest刮刮的正确属性

html、css、r、rvest

我试图在网页上刮掉底层的超链接，但是选择html节点和相应的属性并没有给出任何结果。我不知道数据是否存储在元标记中，也不知道如何识别。使用selectorgadget，我认为css选择器是“td”，但我也可以在页面中看到“tr”。打开dev工具，我可以看到href属性下的链接，但在运行以下代码时不会得到结果： url = "

浏览 6提问于2022-03-27得票数 1

1回答

and抓取选择器小工具和rvest的问题

r、web-scraping、screen-scraping、rvest

我正在尝试使用SelectorGadget和rvest从https://3g.dxy.cn/newh5/view/pneumonia中抓取数据我用下面的代码成功地抓取了页面中的一些文本。library(rvest) url <- 'https://3g.dxy.cn/newh5/view/pneumoni

浏览 16提问于2020-01-28得票数 1

回答已采纳

r、css-selectors、rvest

我正在尝试使用R和SelectorGadget中的rvest包来提取标题描述，以识别我的CSS选择器。<a href="[].html</a>当前使用以下代码选择h3类数据：“麦迪逊广场花园...”。我想选择标题数据，即"Vasyl Lomachenko击败吉列尔莫·里贡多“ url <- 'www.url.co

浏览 0提问于2018-01-07得票数 0

点击加载更多