我试图刮网页的标题和其他信息下的每一部电影。对于其他网页,我可以使用html_nodes()和html_text()运行几行,使用SelectorGadget来选择CSS选择器,以获得我想要的不同内容:
html <- read_html("https://www.filmweb.no/kinotoppen/")
title <- html %>%
html_nodes(".Kinotoppen_MovieTitle__2MFbT") %>%
html_text()
然而,当在这个网页上运行这些行时,我只得到一个空的字符向量。
我想获取网页的html。在这个html中,有两个元素是我想要读取的xpath。我对这个话题知之甚少。
在搜索时,我经常看到一些示例,但是它们加载url并将html放入字符串中。但是,我相信既然我有两个xpath,那么将网页的html作为html文档而不是字符串下载会更好,或者我错了?
using (WebClient client = new WebClient()) {
string s = client.DownloadString(url);
}
那么,如何将网页的html下载到我可以搜索的html文档呢?