Web-scraping Rvest -如何从缩短的URL中捕获完整的‘href` url

文章/答案/技术大牛

发布

1回答

、、

我正在尝试从包含表格和链接的web中抓取数据。我可以成功下载带有链接文本"score“的表格。但是，我想要捕获完整的href url，而不是缩短的URL。但是，我想我会用rvest缩短URL。我不知道如何才能获得完整的'url‘，我可以

浏览 7提问于2019-03-19得票数 0

回答已采纳

1回答

URL重定向&通过PHP取消缩短链接

、、

我正在建立一个网站，这与亚马逊和其他附属公司与它相关，我想使用twitter上的链接，但twitter上的链接是缩短使用比特。有没有可能使用php取消链接？例如，完整的url可以是： http://www.mysite.com/unbit.php?url=<a href="https://rads.stackoverflow.com/amzn/click/c

浏览 1提问于2014-03-03得票数 0

1回答

无法使用回调获取结果

、、、

我在node中编写了一个脚本，使用两个不同的函数getPosts()和getContent()在其中提供回调，以便打印调用独立函数getResult()的结果。在我的脚本中定义的选择器是完美的。但是，当我执行我的脚本时，它什么也不打印。它也不会抛出任何错误。我试图模仿Neil在中提供的逻辑。var request = require('request'); var cheerio = re

浏览 0提问于2019-04-09得票数 0

回答已采纳

1回答

如何使用for循环变量作为csv文件名的一部分来编写许多csv文件？

、、

在R中，我正在做web-scraping (使用rvest)曲棍球选秀历史页面，我创建了一个for循环来遍历40个网页，抓取表格，然后我想把每个页面都写到一个单独的csv文件中。在我的循环中，我循环了几年，并将它们粘贴到每个url的url中。如何使用每个url中使用的年份作为csv文件名(例如1979.csv，1980.csv，...)。我相信我必须使用paste

浏览 13提问于2019-02-05得票数 0

回答已采纳

1回答

从404错误抓取URL中的数据-抓取

、、

我试图从一个网页上抓取数据，但我得到了一个404错误的网址如下。但是，我需要从浏览器中获取404链接中的数据。示例如下：library(rvest) {paste0(

浏览 3提问于2018-05-28得票数 0

1回答

在以某种自定义方式使用concurrent.futures时无法打印函数的结果

、、、

我使用concurrent.futures库创建了一个脚本来打印来自fetch_links函数的结果。当我在函数中使用print语句时，就会得到相应的结果。我现在想要做的是使用产额语句打印该函数的结果。 # prin

浏览 1提问于2020-10-12得票数 0

回答已采纳

1回答

country=&dtype=&from=1890&page=1&ps=100&sid=&sk=&sort_by=nation&sort_order=&to=2017&topic=&view=s&vk= 通过这个url=&from=1890&page=1&ps=100&sid=&sk=&sort_by=nation&sort_order=&to=2017&topic=&view=s&vk=&qu

浏览 1提问于2018-01-16得票数 0

1回答

我可以通过Iframe从缩短的URL获得一个参数吗？

、

我缩短了从QRCODES扫描的URL。完整的URL有一些我需要的参数。但没能工作..。iframe.contentWindow.location.hrefERROR

浏览 5提问于2022-05-11得票数 -1

2回答

如何在网页中对图像进行follow_link？

我需要点击一个链接，它实际上是html文件中的一个图像(左上角的UCR徽标)，我该怎么做呢？我有以下代码：p <- html_session(url) <a href ="http://www.ucr

浏览 6提问于2015-04-20得票数 3

回答已采纳

1回答

R脚本错误- open.connection(x，"rb")中的错误: HTTP错误404。调用自: open.connection(x，"rb")

、

不知道我在哪里犯了错，但希望得到任何社区的建议。我想我在网站链接的某个地方犯了个错误，但我不知道该放什么，我尝试了最低限度的"http://www.ufcstats.com/"，以及“/fighter-details/”“。library(rvest)library(purrr) link = "http://www.ufcstats.com/statistics/fig

浏览 105提问于2021-07-24得票数 0

回答已采纳

1回答

如何从html的href链接到达位流url。

、、、

我正在使用rvest R package从this网页中抓取一个PDF文件，但在我点击了名为AC1-96-21-01-2011.pdf的exposed url之后，最终的链接暴露出来(作为一个比特流url最终的pdf文件被隐藏在here中，不会被访问到。这将阻止所有rvest函数read_html()的尝试，因为最终的pdf文件仅在单击上一个链接(在href上)时

浏览 21提问于2020-01-15得票数 0

回答已采纳

3回答

使用python从缩短url中获取完整的url

,'bit.ly/1bdDlXc']import urllib2 print urllib2.urlopen(i).url 但是当列表包含数千个url时，这个程序需要很长的时间。我的问题是:是否有任何方法可以缩短执行时间或我必须遵循的任何其他方法？

浏览 6提问于2014-08-11得票数 5

回答已采纳

1回答

如何使用rvest从网站获取完整的URL？

、、

我试图使用rvest从网站上的一些链接获得完整的网址。当我抓取链接时，我得到了URL的缩写版本。library(rvest) page <- read_html("http://developer.cbssports.comsta

浏览 13提问于2020-05-21得票数 1

回答已采纳

2回答

在R中将字符串插入URL的中间

、

我正在使用rvest刮一个IMDB列表，并希望访问完整的演员名单和船员。不幸的是，当您单击标题时，IMDB创建了一个摘要页，并将我带到错误的页面。ref_=tt_ql_cl如何将/fullcredits插入到我构建的URL的中间？#install.packages("rvest") #ins

浏览 2提问于2021-11-28得票数 1

回答已采纳

1回答

如何使用rvest抓取网页的链接和文本？

、、、、

我正在尝试使用R中的rvest来抓取阿根廷总统的演讲。以下是我到目前为止编写的代码： library(purrr)library(stringr) map_df(1:2, function(i) { pg

浏览 19提问于2021-11-13得票数 0

回答已采纳

2回答

使用R或Python抓取网页和相关的后续页面

、、、、

我想做一些NLP的歌曲歌词分类心情几十年。现在，给出一个特定艺术家的歌词页面，比如史密斯家，我的首页显示了所有的歌曲名称：你现在拥有一切\n感谢你的帮助！就像我写的R或者Python。其实并不重要。最好，我希望每个歌词保存在单独的*.txt文件。from bs4 import BeautifulSouplist =[t

浏览 4提问于2020-04-08得票数 1

回答已采纳

1回答

如何从像bit.ly这样的缩短的URL中获得完整的URL？

、

我从一些文档中得到了一个简短的URL但是，在看到完整的URL之前，我不想单击该链接。等缩短的URL中获得完整的URL

浏览 0提问于2023-02-20得票数 0

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷歌新闻应用程序： url</em

浏览 2提问于2018-06-04得票数 0

1回答

将HTML代码读入R中进行数据和文本挖掘

、、、

我正试图将本网站上的信息读入R中进行数据和文本分析：我尝试使用以下包和代码将源代码读入R中：theurl <- "http://www.nhl.com/scores/htmlreports/20142015/PL020916.HTM" tables <- rea

浏览 4提问于2015-03-02得票数 1

回答已采纳

1回答

从R中的网页中提取所有可能的文本

我使用这个脚本从网页中提取文本。url <- "http://www.dlink.com/it/it" html <- htmlTreeParsescript)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue)但问题是，它只需要在第一页

浏览 2提问于2017-03-31得票数 0

回答已采纳

点击加载更多