首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从html页面不显示数据的url读取数据

从html页面不显示数据的url读取数据
EN

Stack Overflow用户
提问于 2020-02-05 07:21:25
回答 1查看 17关注 0票数 0

我正在尝试以下代码:

代码语言:javascript
复制
import sys
if __name__ == '__main__':
    link = "https://bibles.org/bible/555fef9a6cb31151-01/3JN.1"
    import requests
    from bs4 import BeautifulSoup

    s = requests.session()
    r = s.get(link)
    soup = BeautifulSoup(r.text, 'html.parser')
    print(soup.prettify())

但是我看不到网页的内容。如何提取它们?

EN

回答 1

Stack Overflow用户

发布于 2020-02-05 16:17:01

您只能使用requests + bs4来抓取您在页面源代码(转到view-source:https://bibles.org/bible/555fef9a6cb31151-01/3JN.1)中看到的内容。

您要抓取的页面是一个动态web应用程序,它会在之后使用JS + XHR加载文本。这意味着您需要一个浏览器+ selenium来加载页面,并执行加载内容所需的任何JS。填充页面内容后,您可以获得实际的超文本标记语言,并使用bs4提取文本。

因此,请阅读有关如何在python中使用Selenium进行抓取的信息。您还需要使用waits1来等待适当的时间,直到页面达到您想要的状态(文本被添加到页面中)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60066956

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档