microsoft

markitdown

microsoft

Python tool for converting files and office documents to Markdown.

AI 简介

MarkItDown 是一个用于将各种文件和办公文档转换为 Markdown 格式的 Python 工具。它支持 PDF、PowerPoint、Word、Excel、图片(包括 EXIF 元数据和 OCR)、音频(包括 EXIF 元数据和语音转录)、HTML、文本格式(如 CSV、JSON、XML)以及 ZIP 文件等多种格式的转换,并能保留文档中的重要结构和内容,例如标题、列表、表格和链接等。该工具特别适用于需要将文档转换为 Markdown 格式以便于与语言模型和其他文本分析工具集成的场景,比如自然语言处理或自动化文本生成项目中。需要注意的是,尽管输出通常对人类友好,但其主要目标是服务于文本分析工具,可能不适用于高保真度的人类阅读需求。

Python
146.2k
Stars
10k
Forks
477
Watchers
395
Issues

Star 增长

今日+1022
近 7 天+14315
近 30 天+24691
综合评分117
默认分支main