使用rvest抓取df列中的链接

文章/答案/技术大牛

发布

2回答

、、

我有一个数据框，其中一列包含我想要用rvest抓取的网页的链接。我想下载一些链接，将它们存储在另一个专栏中，并从它们下载一些文本。也许问题可能是第一个链接被保存为列表。你知道我怎么解决这个问题吗？这是我的MWE (在我的完整数据集中，我有大约5000个链接，我应该使用Sys.sleep吗?如何使用？)library(rvest

浏览 15提问于2021-06-21得票数 1

回答已采纳

1回答

将数据收集到R中

、、、

我目前正在尝试将转换为R，但在获取正确的表时遇到了问题。Premier-League-Stats#stats_standard::1"df<- html_link %>% rvest::html_nodes("

浏览 21提问于2021-02-16得票数 0

回答已采纳

1回答

到一个带有rvest的dataframe

、、、

我想用下面的列将超链接抓取到一个数据文件中。源页面包含标题和链接列表。我不清楚如何将主题标题合并到最后的dataframe。library(tidyverse) hyperlink <-

浏览 0提问于2018-09-04得票数 0

回答已采纳

1回答

如何使用rvest抓取网页的链接和文本？

、、、、

我正在尝试使用R中的rvest来抓取阿根廷总统的演讲。以下是我到目前为止编写的代码： library(purrr)library(stringr) map_df(1:2, f

浏览 19提问于2021-11-13得票数 0

回答已采纳

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷

浏览 2提问于2018-06-04得票数 0

1回答

在R中使用Rvest和Glue包进行抓取

、、、

我正在尝试使用rvest和glue包抓取多页体育数据。我在嵌套方面遇到了问题，我想这是因为网站上的表格有一个两行的标题(有些标题是一行，有些是两行)。这是我开始编写的代码。我检查了一下，以确保该网站允许使用python进行抓取，并且一切正常。library(tidyverse) library(glue)用于

浏览 32提问于2020-02-15得票数 0

2回答

Web-用表单从页面中抓取数据

、、

我是网络抓取的新手，我想获得这个网页的数据： ipak <- function(pkg){ 将数据帧的站点列中的每个名称填入" site“字段，获取结果，然后转到”站点详细信息“链接</

浏览 0提问于2018-09-25得票数 1

回答已采纳

1回答

使用Rvest抓取超链接

、、

我想使用rvest从页面中抓取( .xlsx和.pdf文件的)文本和超链接。我对此不是很在行，所以很难说我是在处理一个复杂的网页，还是在犯新手的错误。到目前为止，我的代码如下：my.xpath <-

浏览 1提问于2018-08-13得票数 1

回答已采纳

2回答

抓取器刮不出页面。

、、

我正在使用Rcrawler提取维基百科页面的信息框。我有一个音乐家的名单，我想提取他们的名字，道布，死亡日期，乐器，标签等。然后我想创建一个所有艺术家的数据作为行和数据存储为列/向量。当我单独使用rvest时，代码中使用的xpath是有效的。我的密码怎么了？

浏览 2提问于2018-07-31得票数 1

回答已采纳

2回答

清除HTML表，从下一行值添加列，然后删除该行

、、

我已经将一个带有rvest的HTML表抓取到一个数据帧中，但我需要清理它以满足我的需要。我不确定是应该在抓取过程中这样做，还是应该在数据操作过程中进行清理。我需要的是向第一行添加一个列，其中包含来自第二行的值。然后完全删除第二行。如果有意义，对每个奇数/偶数行重复此操作。这是抓取的样子： n = c("Player 1", "Male&quo

浏览 24提问于2020-10-25得票数 0

回答已采纳

1回答

rvest从网页抓取链接

、

我正在使用rvest从杂志“骗局”中抓取一些链接。我用过这段代码 library(rvest) html_nodes(".daily-article-title") %>% html_attr('href') 但是，这

浏览 13提问于2021-04-29得票数 0

回答已采纳

1回答

使用rvest跟踪具有相对路径的"next“链接

、、、

我正在使用rvest包从页面中抓取信息。在抓取第一页后，我想遵循底部的“下一步”链接，刮掉第二页，移动到第三页，等等。./2/“周围有一些rvest显然不喜欢的额外的循环： html("http://www.radiolab.org/series/podcasts") %>% html_node(".pagefooter-

浏览 2提问于2015-01-07得票数 7

1回答

如何获取rvest或sapply以跳过NA值？

、

我正在使用rvest (试图)从一个名为RePEc的学术出版物数据库中抓取所有作者从属关系数据。我有作者的短I (author_reg)，我用它来抓取从属关系数据。但是，我有几个列表示多个作者(我需要每个作者的从属关系数据)。如果没有多个作者，则单元格的值为NA。其中一些列主要是NA值，那么我如何修改代码，使其跳过NA值，但不删除它们呢？下面是我使用的代码： library(<em

浏览 12提问于2020-02-03得票数 1

回答已采纳

1回答

Web抓取包含内联图片的表格

、、

我正在尝试将这个标题为的表整理成一个数据帧。该表应如下所示：library(rvest) BattlestylesURL <- "https://bulbapedia.bulbagarden.net/wiki/B

浏览 23提问于2021-05-12得票数 1

回答已采纳

1回答

在<a rel=中提取链接的rvest* ...href=>*

、、、、

我正在尝试使用rvest包来抓取嵌入在页面上的链接列表。在我使用这样的东西之前：page <- read_html("link")但是，这只给了我与<a href="https://www.abcef

浏览 1提问于2020-11-04得票数 0

1回答

使用getURL()从网站抓取返回urls字符串，而不是网站内容。我如何获得网站的内容？(R工作室，windows 10)

、、、

我是全新的刮刮，使用Windows 10个人电脑。我试图从类中运行这段代码，以从以下URL中抓取派对平台的内容：urlsR=paste("https://maineanencyclopedia.com，而不是来自网站的派对平台的内容。即使在在线查看之后，我仍然不清楚如何修复我的特定代码？此处使用的链接</em

浏览 5提问于2022-02-17得票数 1

1回答

网络-在课堂上在某个单词之后刮起。

、、、

我试图用以下变量将网页上的信息抓取到数据框架中：“名称”很容易被刮掉，因为它有一个特殊的类“结果标题详情(“州”、“区”等)因为它们都有相同的类“结果项”，所以比较难刮。html源的结构合理，可用于web抓取。使用我在这个中找到的代码的修改版本，我试图让R准确地抓取细节(只记录某个单词之后<e

浏览 3提问于2022-01-30得票数 0

回答已采纳

2回答

使用R在搜索结果的第一页之外刮取URL

、、、

请注意，我知道有许多网络抓取的问题和答案已经张贴，但我没有能够解决我的问题后，他们阅读。library(rvest) webpage = read_html(&q

浏览 7提问于2022-02-11得票数 0

1回答

没有捕获整个表

、、

嗨，我想刮一张包含100行的表，但是它似乎只有20行，然后就停止了。有趣的是，它捕获了整个表的第一列，但是在第20行之后，其余的列是NA。library(rvest)html <- rvest::read_html("https://coinmarketcap.com/historical/20150621/") tables <- h

浏览 6提问于2021-12-14得票数 0

回答已采纳

2回答

启动web浏览器并复制包含R的信息

、

我正在尝试找到一种从PubMed页面复制粘贴标题和摘要的方法。我开始使用 browseURL("https://pubmed.ncbi.nlm.nih.gov/19592249") ## final numbers are the PMID 现在我找不到一种以txt方式获取标题和摘要的方法。它也可以是有用的，只需复制页面上的所有内容，然后我就可以只取我需要的东西。这样做有可能吗？谢谢!

浏览 35提问于2021-04-02得票数 0

回答已采纳

点击加载更多