前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >微软又放大招了!MarkItDown:轻松转换为Markdown的神器

微软又放大招了!MarkItDown:轻松转换为Markdown的神器

作者头像
AI研思录
发布2025-02-20 15:06:52
发布2025-02-20 15:06:52
18200
代码可运行
举报
文章被收录于专栏:AI研思录AI研思录
运行总次数:0
代码可运行

微软最新开源的 Python Markitdown 工具,能将 PDF、Office 文档(Word/PPT/Excel)、图片、音频等多种格式的文件智能转换为 Markdown 格式,支持 OCR 文字识别、语音转文字和元数据提取等功能,特别适合文档分析和内容索引场景。

项目地址:https://github.com/microsoft/markitdown

主要功能

  • 将各类文档自动转换为 Markdown 格式
  • 特别适合做文本分析和内容索引
  • 提供了简单易用的 Python API

支持的文件格式

  • 办公文档:Word、PowerPoint、Excel
  • PDF 文件
  • 图片(可提取 EXIF 元数据,支持 OCR 文字识别)
  • 音频文件(可提取元数据,支持语音转文字)
  • 网页内容(对维基百科等网站有特殊优化)
  • 其他文本格式(CSV、JSON、XML 等)

使用方法

安装首先,通过 pip 安装工具:

代码语言:javascript
代码运行次数:0
复制
pip install markitdown

用 Python 调用并转换文件内容:

代码语言:javascript
代码运行次数:0
复制
from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)

要使用大型语言模型进行图像描述,请提供llm_client和llm_model:

代码语言:javascript
代码运行次数:0
复制
from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研思录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 主要功能
  • 支持的文件格式
  • 使用方法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档