问从html页面不显示数据的url读取数据
EN

Stack Overflow用户

提问于 2020-02-05 07:21:25

回答 1查看 17关注 0票数 0

我正在尝试以下代码：

import sys
if __name__ == '__main__':
    link = "https://bibles.org/bible/555fef9a6cb31151-01/3JN.1"
    import requests
    from bs4 import BeautifulSoup

    s = requests.session()
    r = s.get(link)
    soup = BeautifulSoup(r.text, 'html.parser')
    print(soup.prettify())

但是我看不到网页的内容。如何提取它们？

beautifulsoup

python-3.5

回答 1

Stack Overflow用户

发布于 2020-02-05 16:17:01

您只能使用requests + bs4来抓取您在页面源代码(转到view-source:https://bibles.org/bible/555fef9a6cb31151-01/3JN.1)中看到的内容。

您要抓取的页面是一个动态web应用程序，它会在之后使用JS + XHR加载文本。这意味着您需要一个浏览器+ selenium来加载页面，并执行加载内容所需的任何JS。填充页面内容后，您可以获得实际的超文本标记语言，并使用bs4提取文本。

因此，请阅读有关如何在python中使用Selenium进行抓取的信息。您还需要使用waits1来等待适当的时间，直到页面达到您想要的状态(文本被添加到页面中)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60066956

复制

相似问题

问从html页面不显示数据的url读取数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从html页面不显示数据的url读取数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从html页面不显示数据的url读取数据
EN