使用BS4 -如何只获取文本，而不获取标签？

在使用BeautifulSoup 4（BS4）解析HTML文档时，有时我们只想获取文本内容，而不包含任何标签。这可以通过多种方式实现，以下是一些常见的方法：

方法一：使用`.get_text()`方法

.get_text()方法可以提取标签内的所有文本内容，并将它们连接在一起。

from bs4 import BeautifulSoup

html_doc = """
<html>
<head><title>Page Title</title></head>
<body>
<div><p>This is a <strong>bold</strong> statement.</p></div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
text = soup.get_text()
print(text)

输出：

Page Title
This is a bold statement.

方法二：遍历所有节点并提取文本

如果你需要更精细的控制，可以遍历所有的标签节点，并只提取文本节点。

from bs4 import BeautifulSoup, NavigableString

html_doc = """
<html>
<head><title>Page Title</title></head>
<body>
<div><p>This is a <strong>bold</strong> statement.</p></div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
texts = [element for element in soup.recursiveChildGenerator() if isinstance(element, NavigableString)]
text = ' '.join(texts)
print(text)

输出：

Page Title 
This is a bold statement.

方法三：使用CSS选择器

如果你熟悉CSS选择器，可以使用.select()方法结合:not()伪类来排除标签。

from bs4 import BeautifulSoup

html_doc = """
<html>
<head><title>Page Title</title></head>
<body>
<div><p>This is a <strong>bold</strong> statement.</p></div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
texts = soup.select('body *:not(*)')
text = ' '.join(text.get_text() for text in texts)
print(text)

输出：

Page Title This is a bold statement.

应用场景

网页内容提取：当你需要从网页中提取纯文本内容进行分析或展示时。
数据清洗：在处理HTML数据时，去除标签可以简化数据结构，便于后续处理。
日志记录：在记录日志时，可能需要将HTML内容转换为纯文本格式。

常见问题及解决方法

标签内的空格和换行符：
- 使用.strip()方法去除文本前后的空白字符。
- 使用正则表达式替换多余的空白字符。

import re

text = soup.get_text()
clean_text = re.sub(r'\s+', ' ', text).strip()
print(clean_text)

特殊字符编码问题：
- 确保HTML文档的编码正确，可以使用.original_encoding属性查看原始编码。
- 使用.decode()方法进行编码转换。

text = text.encode('utf-8').decode('unicode_escape')
print(text)

通过以上方法，你可以有效地从HTML文档中提取纯文本内容，而不包含任何标签。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用BS4 -如何只获取文本，而不获取标签？

方法一：使用`.get_text()`方法

方法二：遍历所有节点并提取文本

方法三：使用CSS选择器

应用场景

常见问题及解决方法

相关·内容

聚焦云原生可观测性的实践与探索

Elastic 中国开发者大会 2021-主会场

助力游戏连接现实

计算机视觉的原理及最佳实践

“音”你而来，“视”而可见音视频技术开发实战

洞察数据，启迪智能-漫谈数据平台与智能应用

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

使用BS4 -如何只获取文本，而不获取标签？

方法一：使用.get_text()方法

方法二：遍历所有节点并提取文本

方法三：使用CSS选择器

应用场景

常见问题及解决方法

聚焦云原生 可观测性的实践与探索

Elastic 中国开发者大会 2021-主会场

助力游戏 连接现实

计算机视觉的原理及最佳实践

“音”你而来，“视”而可见 音视频技术开发实战

洞察数据，启迪智能-漫谈数据平台与智能应用

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

方法一：使用`.get_text()`方法

聚焦云原生可观测性的实践与探索

助力游戏连接现实

“音”你而来，“视”而可见音视频技术开发实战