在当今的 Web 开发和内容管理中,HTML 和 Markdown 是两种广泛使用的标记语言。HTML 用于网页设计和内容展示,而 Markdown 则因其简洁易用的特点,在开发者、博客作者、文档编写者等人群中得到了广泛应用。
HTML2text
是一个简单而强大的 Python 库,专门用于将 HTML 文本转换为 Markdown 格式。它能够自动识别 HTML 文档中的结构并将其转化为相应的 Markdown 语法。无论是网页内容、博客文章,还是自动化报告,使用 HTML2text
都能帮助你轻松完成 HTML 到 Markdown 的转换。
本文将介绍如何使用 HTML2text
,从安装、配置到实际应用,帮助你高效地将 HTML 内容转换为更加易读、易编辑的 Markdown 格式。通过本工具,开发者可以简化内容迁移过程,同时提升工作效率,特别是在处理需要快速转换和共享的文本内容时。
Python环境,版本建议使用3.10以上 可前往Python官网进行下载。
其他安装细节本文不再过多赘述
pip install -i https://mirrors.cloud.tencent.com/pypi/simple html2text
import html2text
html = """
<h1>标题</h1>
<p>这是一个段落。</p>
"""
markdown = html2text.html2text(html)
print(markdown)
运行后
# 标题
这是一个段落。
若内容较长,有时候空格也会进行换行操作,这就会导致一些格式的不正确,可以通过一些参数来禁用掉换行
html = """
<h1>标题</h1>
<p>你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。 这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。</p>
"""
config = html2text.HTML2Text()
config.body_width = 0
markdown = config.handle(html)
未加参数:
# 标题
你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。
这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。
使用参数后
<h1>标题</h1>
<p>你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。 这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。</p>
import html2text
html = """
<h1>标题</h1>
<p>你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。 这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。</p>
"""
config = html2text.HTML2Text()
config.body_width = 0
markdown = config.handle(html)
with open('save.md', "w", encoding="utf-8") as file:
file.write(markdown)
print("保存成功")
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。