前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Python:使用html2text将HTML转换为Markdown

Python:使用html2text将HTML转换为Markdown

原创
作者头像
小宇-xiaoyu
发布2024-12-24 18:04:22
发布2024-12-24 18:04:22
18500
代码可运行
举报
文章被收录于专栏:Python笔记Python笔记
运行总次数:0
代码可运行

在当今的 Web 开发和内容管理中,HTML 和 Markdown 是两种广泛使用的标记语言。HTML 用于网页设计和内容展示,而 Markdown 则因其简洁易用的特点,在开发者、博客作者、文档编写者等人群中得到了广泛应用。

HTML2text 是一个简单而强大的 Python 库,专门用于将 HTML 文本转换为 Markdown 格式。它能够自动识别 HTML 文档中的结构并将其转化为相应的 Markdown 语法。无论是网页内容、博客文章,还是自动化报告,使用 HTML2text 都能帮助你轻松完成 HTML 到 Markdown 的转换。

本文将介绍如何使用 HTML2text,从安装、配置到实际应用,帮助你高效地将 HTML 内容转换为更加易读、易编辑的 Markdown 格式。通过本工具,开发者可以简化内容迁移过程,同时提升工作效率,特别是在处理需要快速转换和共享的文本内容时。

0.前提准备

Python环境,版本建议使用3.10以上 可前往Python官网进行下载。

其他安装细节本文不再过多赘述

1.安装所需库

代码语言:txt
复制
pip install -i https://mirrors.cloud.tencent.com/pypi/simple html2text 

2.示例代码

代码语言:python
代码运行次数:0
复制
import html2text

html = """
<h1>标题</h1>
<p>这是一个段落。</p>
"""
markdown = html2text.html2text(html)
print(markdown)

运行后

代码语言:txt
复制
# 标题

这是一个段落。

若内容较长,有时候空格也会进行换行操作,这就会导致一些格式的不正确,可以通过一些参数来禁用掉换行

代码语言:python
代码运行次数:0
复制
html = """
<h1>标题</h1>
<p>你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。 这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。</p>
"""

config = html2text.HTML2Text()
config.body_width = 0
markdown = config.handle(html)

未加参数:

代码语言:txt
复制
# 标题

你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。
这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。


使用参数后

代码语言:txt
复制

<h1>标题</h1>
<p>你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。 这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。</p>

3.将生成的markdown内容保存为md文件

代码语言:txt
复制
import html2text

html = """
<h1>标题</h1>
<p>你好,这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。 这是一个段落。这是一个段落。这是一个段落。这是一个段落。这是一个段落。</p>
"""
config = html2text.HTML2Text()
config.body_width = 0
markdown = config.handle(html)

with open('save.md', "w", encoding="utf-8") as file:
    file.write(markdown)
    print("保存成功")

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0.前提准备
  • 1.安装所需库
  • 2.示例代码
  • 3.将生成的markdown内容保存为md文件
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档