如何使用rvest从Lux到Lumens Calculator获取动态数据_如何使用python从xml文件中动态获取数据？_如何使用动态键从字典中动态获取值并将其绘制到DataFrame？ - 腾讯云开发者社区

rvest 是一个用于网页抓取的 R 语言包，它允许你轻松地从网页中提取数据。然而，对于动态加载的数据，rvest 本身可能无法直接获取，因为这些数据通常是通过 JavaScript 在客户端生成的。为了处理这种情况，你可以结合使用 rvest 和 RSelenium 或 splashr 等工具来模拟浏览器行为并捕获动态内容。

以下是一个使用 rvest 和 RSelenium 从 Lux 到 Lumens Calculator 获取动态数据的示例：

安装和加载必要的包

install.packages("rvest")
install.packages("RSelenium")
library(rvest)
library(RSelenium)

启动 Selenium 服务器并打开浏览器

# 启动 Selenium 服务器
selServ <- selenium(port = 4444L)

# 打开浏览器并导航到目标网站
remDr <- remoteDriver(port = 4444L)
remDr$open()
remDr$navigate("https://example.com/lux-to-lumens-calculator")  # 替换为实际网址

使用 rvest 提取动态数据

# 等待页面加载完成
Sys.sleep(5)  # 根据需要调整等待时间

# 使用 rvest 提取数据
page_source <- remDr$getPageSource()[[1]]
webpage <- read_html(page_source)

# 假设我们要提取的数据在 id 为 "result" 的元素中
result_element <- webpage %>% html_nodes("#result")
result_text <- result_element %>% html_text()

# 关闭浏览器和 Selenium 服务器
remDr$close()
selServ$stop()

解释

安装和加载包：首先，你需要安装并加载 rvest 和 RSelenium 包。
启动 Selenium 服务器：RSelenium 需要一个 Selenium 服务器来控制浏览器。你可以使用 selenium() 函数启动一个本地服务器。
打开浏览器并导航：使用 remoteDriver() 创建一个远程驱动程序，并使用 open() 和 navigate() 方法打开浏览器并导航到目标网站。
等待页面加载：由于数据是动态加载的，你可能需要等待一段时间，直到数据出现在页面上。
提取数据：使用 get_pageSource() 方法获取页面源代码，然后使用 read_html() 将其转换为 xml_document 对象。接下来，你可以使用 html_nodes() 和 html_text() 方法提取所需的数据。
关闭资源：完成数据提取后，记得关闭浏览器和 Selenium 服务器以释放资源。