开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我用BeautifulSoup找不到信息

BeautifulSoup是一个Python库，用于从HTML或XML文件中提取数据。如果你在使用BeautifulSoup时找不到信息，可能有以下几个原因：

定位问题：首先，你需要确认你正在查找的信息是否存在于HTML或XML文件中。可以通过查看源代码或使用开发者工具来确认。
选择器问题：BeautifulSoup使用选择器来定位元素。你需要确保你使用的选择器是正确的。常见的选择器包括标签名、类名、id等。你可以参考BeautifulSoup的官方文档来了解更多关于选择器的用法。
解析问题：如果你的HTML或XML文件不符合标准的格式，可能会导致BeautifulSoup无法正确解析。你可以尝试使用其他解析器，例如lxml或html.parser，来解决这个问题。
数据加载问题：如果你的信息是通过JavaScript动态加载的，BeautifulSoup可能无法获取到这些信息。你可以尝试使用Selenium等工具来模拟浏览器行为，以便获取到动态加载的数据。

总结起来，如果你在使用BeautifulSoup时找不到信息，你可以检查定位问题、选择器问题、解析问题和数据加载问题。如果问题仍然存在，你可以提供更具体的信息，以便我能够给出更准确的建议。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

记爬虫小分队（六）

他是同find方法，找的div的class标签，对于这个问题，我们可以换个思路，这个定位找不到，就往上找，我的代码：

01

一键下载电影

学编程是为啥？偷懒呗~有时候去豆瓣看到比较感兴趣的或者想看朋友文字推荐的电影，就得打开电影网站获取电影的下载链接，然后用迅雷下载观看，我觉得挺麻烦的。当然要是在线观看就是另外一回事了。我喜欢下载下来看，不会卡不会有广告，贼舒服~

04

Python｜初识爬虫

在一般的数据爬取中，HTML代码是很重要的一部分，获取到了网页的HTML代码，我们就能够从中提取出我们所需要的数据，我们先来通过一段简单的代码来看一下如何获取HTML代码：

01

selenium采集2020.8.20

一、报错WebDriverException: 'geckodriver' executable needs to be in PATH.

03

python 携程爬虫开发笔记

最近购买了《Python3 爬虫、数据清洗与可视化实战》，刚好适逢暑假，就尝试从携程页面对广州的周边游产品进行爬虫数据捕捉。因为才学Python不够一个星期，python的命名规范还是不太了解，只能套用之前iOS开发的命名规范，有不足之处请多多指点

01

一个小爬虫

爬虫是什么：自动从网络上收集信息的一种程序。一整套关于数据请求、处理、存储的程序，这之间又设计到关于网络、数据结构的一些知识。详细的有数据的采集、处理、存储三方面的知识。为什么会有爬虫呢：可以从网络上爬取到大量自己需要的数据。我们在哪里用到爬虫：自动采集帖子、发帖、秒杀、抢购东西。怎样才能学好爬虫：冷静、仔细、耐心、多写代码。

02

Python模块下载工具pip和easy_install

在写python的时候，经常会用到一些扩展包，作为python新手，经常又不知道去哪里找这些包。而且就算是找到了，下载下来之后还需要进行繁琐的安装、配置等操作。有时候为了进行这些安装还要去安装能够安装这些程序的程序，比如setuptools等。而安装这些东西有可能还会有很多奇奇怪怪的问题，这样严重影响了编程的体验。还好，python有几个类似ubuntu中apt-get一样的东西，相当于一个包管理器，能够十分便捷的帮我们安装到自己需要的模块，这就是pip和easy_install。

04

Python 爬虫：把教程转换成 PDF 电子书

写爬虫似乎没有比用 Python 更合适了，Python 社区提供的爬虫工具多得让你眼花缭乱，各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来，今天就琢磨着写一个爬虫，将廖雪峰的 Python 教程爬下来做成 PDF 电子书方便大家离线阅读。

03

Python BeautifulSoup 选择器无法找到对应元素（异步加载导致）

👋 你好，我是 Lorin 洛林，一位 Java 后端技术开发者！座右铭：Technology has the power to make the world a better place.

03

python爬虫大战京东商城

写到这里可以看到搜索首页的网址中keyword和wq都是你输入的词，如果你想要爬取更多的信息，可以将这两个词改成你想要搜索的词即可，直接将汉字写上，在请求的时候会自动帮你编码的，我也试过了，可以抓取源码的，如果你想要不断的抓取，可以将要搜索的词写上文件里，然后从文件中读取就可以了。以上只是一个普通的爬虫，并没有用到什么框架，接下来将会写scrapy框架爬取的，请继续关注我的博客哦！！！

02

windows下python常用库的安装

windows下python常用库的安装，前提安装了annaconda 的python开发环境。只要已经安装了anaconda，要安装别的库就很简单了。只要使用pip即可，正常安装好python，都会自带pip安装工具，在python的scripts安装目录下可以查看。具体安装步骤：使用Anaconda在windows下管理python开发环境 python常用库的安装是python爬虫开发的基石。

03

4K美女壁纸爬取

4K美女壁纸爬取一、前言拍了zhenguo的课程，今天继续学习课程同时，尝试使用BeautifulSoup4这个网页解析的方法爬取图片，看完后心血来潮，想自己也试一下。爬完后并总结这篇投稿给zhenguo，奖励我50元稿费，很开心。最先想到的是彼岸图网，这个网站上有很多4k壁纸，打开网页后，我选择了4k美女壁纸作为本次爬虫的目标，爬取到的图片截图如下：二、过程 1.首先，我们拿到前三页的网页地址。 2.通过分析可以看出，当页面变化时，index后面会发生改变，但在第一页时并没有数字显示，所以

02

大牧夜话——爬虫篇-预告片PYTHON爬虫-江湖夜话

应大家的要求，最近打算整理一下PYTHON爬虫的东东，希望能对入门的童鞋们有所助益！本人技术一般水平有限，如有不妥请联系或者私信本人，互相进步。内容会同步在简书、CSDN、慕课更新，希望能符合上帝的爱好。

02

python制作电子书

文章目录 1. python制作pdf电子书 1.1. 准备 1.1.1. 安装wkhtmltopdf 1.1.2. python安装依赖包 1.2. pdfkit的用法 1.2.1. 初级了解函数 1.2.2. 进阶 1.2.2.1. options 1.2.2.2. cover 1.2.2.3. css 1.3. 注意 1.4. 实战 1.4.1. 注意 1.5. 参考文章 python制作pdf电子书准备制作电子书使用的是python的pdfkit这个库，pdfkit是 wkhtmltopd

04

Day1爬虫原理

爬虫基本流程发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。获取响应内容如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容。类型可能有HTML，Json字符串，二进制数据（如图片类型）等类型。解析内容得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。保存数据保存形式多样

06

Python爬虫（三）：BeautifulSoup库

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库，它能够将 HTML 或 XML 转化为可定位的树形结构，并提供了导航、查找、修改功能，它会自动将输入文档转换为 Unicode 编码，输出文档转换为 UTF-8 编码。

02

解析动态内容

根据权威机构发布的全球互联网可访问性审计报告，全球约有四分之三的网站其内容或部分内容是通过JavaScript动态生成的，这就意味着在浏览器窗口中“查看网页源代码”时无法在HTML代码中找到这些内容，也就是说我们之前用的抓取数据的方式无法正常运转了。解决这样的问题基本上有两种方案，一是JavaScript逆向工程；另一种是渲染JavaScript获得渲染后的内容。

02

爬虫基本原理完全梳理及常用解析方式

什么是爬虫：即网络爬虫，可以理解为在网络上爬行的一只蜘蛛，互联网可以比喻为一张大网，一只蜘蛛在爬行时遇到了所需的资源就可以把它爬取下来。简单来说，爬虫就是请求网络并提取数据的自动化程序。基本流程发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（例如图片视频）等类型解析内容

07

爬虫实践：获取百度贴吧内容

本次要爬的贴吧是<< 西部世界 >>，西部世界是我一直很喜欢的一部美剧，平时有空也会去看看吧友们都在聊些什么。所以这次选取这个吧来作为实验材料。

02

Python爬虫入门：爬取pixiv

终于想开始爬自己想爬的网站了。于是就试着爬P站试试手。我爬的图的目标网址是： http://www.pixiv.net/search.php?word=%E5%9B%9B%E6%9C%88%E3%8

03

独家 | 手把手教你用Python进行Web抓取（附代码）

作为一名数据科学家，我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据，当时对我来说是一个完全陌生的概念，但它是最合理、最容易获取的数据来源之一。经过几次尝试，网络抓取已经成为我的第二天性，也是我几乎每天使用的技能之一。

02

033Python爬虫学习笔记-1从入门到爬取豆瓣书评影评

1.什么是爬虫可以理解为抓取、解析、存储互联网上原始信息的程序工具，Google、Baidu底层都是爬虫。 2.为什么学Python和爬虫从2013年毕业入职起，我已在咨询行业呆了4.5年，期间历经了从尽职调查、战略规划、业务转型，到信用风险管理、数据管理等多类项目，也经历了从Analyst到Consultant到Senior再到Manager的角色转变，收获良多。然而时代在变，市场环境、金融行业、科技融合程度已今非昔比，自身发展需求与职业瓶颈的矛盾越来越突出。在当前的年纪，所有职业路径判断与选择

精品教学案例 | 基于Python3的证券之星数据爬取

本案例适合作为大数据专业数据采集课程的配套教学案例。通过本案例，能够达到以下教学效果：

03

Python爬虫--- 1.5 爬虫实践：获取百度贴吧内容

原文链接：https://www.fkomm.cn/article/2018/7/22/21.html

00

【一起学Python】爬取网易云歌词

说在前面：这是公众号第一篇来自小伙伴的投稿。我之前挖过一个坑，说想抓取歌词以后做文本分析，后面不了了之了。刚好Ricky作为爬虫的初学者，需要小项目练手，他就把这件事接了过去，帮我填坑。作为初学者，做项目和做笔记是很重要的。Ricky把文章发给我后让我帮他改，我觉得其实每个人写文章风格不一样，有的人逗比，有的人严谨，只要能把事情讲清楚就好了。至于代码，只要能实现需求，我其实不在乎是Pythonic还是ugly。这也是一系列文章的第一篇，希望大家也能多多指点。 ▲ ▲ ▲ 接触python也有一段

【hacker的错误集】html5lib使用报错Couldn‘t find a tree builder with the features you requested: html5lib

bs4.FeaturNontFound bs4的特征没有找到 tree builder 树生成器 parser library 解析器库

04

BeautifulSoup文档4-详细方法 | 用什么方法对文档树进行搜索？

BeautifulSoup的文档搜索方法有很多，官方文档中重点介绍了两个方法： find() 和 find_all() 下文中的实例，依旧是官网的例子： html_doc = """ <html><head><title>The Dormouse's story</title></head> <body>

The Dormouse's story

Once upon a time there were three

05

python爬虫---从零开始（一）初识爬虫

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。互联网犹如一个大蜘蛛网，我们的爬虫就犹如一个蜘蛛，当在互联网遇到所需要的资源，我们就会爬取下来，即为爬虫是一个请求网站并且提取数据的自动化程序。

05

Python爬虫大战京东商城

專欄 ❈爱撒谎的男孩，Python中文社区专栏作者博客：https://chenjiabing666.github.io ❈ 主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页，输入裤子将会看到页面跳转到了这里，这就是我们要分析的起点我们可以看到这个页面并不是完全的，当我们往下拉的时候将会看到图片在不停的加载，这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息，我们打开chrome的调试工具，查找页面元素时可以看到每条裤子的信

09

六、解析库之Beautifulsoup模块

一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip install beautifulsoup4 #安装

06

selenium+phantomjs爬取

今天自己实战写了个爬取京东商品信息，和上一篇的思路一样，附上链接：https://www.cnblogs.com/cany/p/10897618.html

01

Docker最全教程之Python爬网实战(二十一)

Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。Python目前是流行度增长最快的主流编程语言，也是第二大最受开发者喜爱的语言（参考Stack Overflow 2019开发者调查报告发布）。

03

秋招季，用Python分析深圳程序员工资有多高？

多图预警、多图预警、多图预警。秋招季，毕业也多，跳槽也多。我们的职业发展还是要顺应市场需求，那么各门编程语言在深圳的需求怎么呢？工资待遇怎么样呢？一起来用 Python 分析一下，当前深圳的求职市场怎么样？顺便帮一下秋招的同学。于是便爬取了某拉钩招聘数据。以下是本次爬虫的样本数据：

00

如何用 Python 爬取天气预报

大家好，我是Victor 278，由于本人是做前端的，Python学来作知识扩充的，看到非常多的小伙伴高呼着想从0开始学爬虫，这里开始写定向爬虫从0开始，献给想学爬虫的零基础新人们，欢迎各位大佬们的指

秋招季，用Python分析深圳程序员工资有多高？

多图预警、多图预警、多图预警。秋招季，毕业也多，跳槽也多。我们的职业发展还是要顺应市场需求，那么各门编程语言在深圳的需求怎么呢？工资待遇怎么样呢？zone 在上次写了这篇文章之后用Python告诉你深圳房租有多高，想继续用 Python 分析一下，当前深圳的求职市场怎么样？顺便帮一下秋招的同学。于是便爬取了某拉钩招聘数据。以下是本次爬虫的样本数据：

04

基于多搜索引擎和深度学习技术的自动问答

聊天机器人本质上是一个范问答系统，既然是问答系统就离不开候选答案的选择，利用深度学习的方法可以帮助我们找到最佳的答案。

02

Python爬虫：爬取在线教程转成pdf

1、网站介绍2、准备工作2.1 软件安装2.2 库安装3、爬取内容3.1 获取教程名称3.2 获取目录及对应网址3.3 获取章节内容3.4 保存pdf3.5 合并pdf4、完整代码

01

BeautifulSoup4用法详解

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

02

[编程经验] 基于bs4的拉勾网AI相关工作爬虫实现

年初大家可能是各种跳槽吧，看着自己身边的人也是一个个的要走了，其实是有一点伤感的。人各有志吧，不多评论。这篇文章主要是我如何抓取拉勾上面AI相关的职位数据，其实抓其他工作的数据原理也是一样的，只要会了这个，其他的都可以抓下来。一共用了不到100行代码，主要抓取的信息有“职位名称”，“月薪”，“公司名称”，“公司所属行业”，“工作基本要求（经验，学历）”，“岗位描述”等。涉及的工作有“自然语言处理”，“机器学习”，“深度学习”，“人工智能”，“数据挖掘”，“算法工程师”，“机器视觉”，“语音识别”，“图像处理

05

Python写爬虫爬妹子

最近学完Python，写了几个爬虫练练手，网上的教程有很多，但是有的已经不能爬了，主要是网站经常改，可是爬虫还是有通用的思路的，即下载数据、解析数据、保存数据。下面一一来讲。

03

Python技术周刊：第 8 期

欢迎来到《Python技术周刊》这是第8期,每周六发布,让我们直接进入本周的内容。由于微信不允许外部链接,你需要点击页尾左下角”阅读原文“,才能访问文中的链接。

02

爬虫之ssh证书警告错误

错误信息：错误信息如下： requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",) 错误分析：　　 ssh证书是美国网景公司发放的一个安全认证证书，有了这个证书即可证明网站是安全的，但是认证是需要收费的，所以一些网站就会自己仿造证书，这个时候浏览器就会给予警告，而我们爬虫就爬不到想要

00

Docker最全教程之Python爬网实战(二十二)

Python目前是流行度增长最快的主流编程语言，也是第二大最受开发者喜爱的语言（参考Stack Overflow 2019开发者调查报告发布）。笔者建议.NET、Java开发人员可以将Python发展为第二语言，一方面Python在某些领域确实非常犀利（爬虫、算法、人工智能等等），另一方面，相信我，Python上手完全没有门槛，你甚至无需购买任何书籍！

03

抓取天气信息并定时推送邮件

最近正在看《Web Scraping with Python 》这本书，所以得动手实践一下，故作此文，通过抓取中国天气网的信息推送邮件信息，希望给忘记带伞的小伙伴们提个醒。。。

02

Python：基础&爬虫

Python的一些內建异常： | 异常 | 描述 | | —————– | —————————- | | Exception | 常规错误的基类 | | AttributeError | 对象没有这个属性 | | IOError | 输入/输出操作失败 | | IndexError | 序列中没有此索引(index) | | KeyError | 映射中没有这个键 | | NameError | 未声明/初始化对象 (没有属性) | | SyntaxError | Python 语法错误 | | TypeError | 对类型无效的操作 | | ValueError | 传入无效的参数 | | ZeroDivisionError | 除(或取模)零 (所有数据类型) | 更多可以参考：http://blog.csdn.net/gavin_john/article/details/50738323

01

Python可以做哪些好玩的事之将喜欢的博客整理成pdf1.采集数据2.将网页转换为pdf

开篇之前，想打一波硬广(没(fen)广(si)告(fu)费(li)(ง •̀_•́)ง)。简书爸爸会不会打我？天善智能，专注商业智能和数据库性能优化，如果你有自己的问题苦苦找不到解决的办法，可以在天善问答社区寻求帮助。

02

基于Python下载网络图片方法汇总代码实例

本文介绍下载python下载网络图片的方法，包括通过图片url直接下载、通过re/beautifulSoup解析html下载以及对动态网页的处理等。

03

秋招季，用Python分析深圳程序员工资有多高？

多图预警、多图预警、多图预警。秋招季，毕业也多，跳槽也多。我们的职业发展还是要顺应市场需求，那么各门编程语言在深圳的需求怎么呢？工资待遇怎么样呢？zone 在上次写了这篇文章之后用Python告诉你深圳房租有多高，想继续用 Python 分析一下，当前深圳的求职市场怎么样？顺便帮一下秋招的同学。于是便爬取了某拉钩招聘数据。以下是本次爬虫的样本数据：

01

Python爬虫之BeautifulSoup解析之路

上一篇分享了正则表达式的使用，相信大家对正则也已经有了一定的了解。它可以针对任意字符串做任何的匹配并提取所需信息。

01

校招助手数据存储PyMySQL

之前做了招聘会信息提醒之微信机器人，微信群已经建了5个，总体的用户大概有不到两千人。小目标是让西电今年找工作的人都能用上。和几个小伙伴一拍即合，做个小程序吧！老生长谈，爬虫的三步走：

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭