来自一家名为 Microsoft 的小型独立开发商店的漂亮的新转换为 Markdown 库:
MarkItDown 库是一个实用工具,用于将各种文件转换为 Markdown(例如,用于索引、文本分析等)
目前它支持:
- PDF (.pdf)
- PowerPoint (.pptx)
- 字 (.docx)
- Excel (.xlsx)
- 图像(EXIF 元数据和 OCR)
- 音频(EXIF 元数据和语音转录)
- HTML(维基百科等的特殊处理)
- 各种其他基于文本的格式(csv、json、xml 等)
API 很简单:
从 markitdown 导入 MarkItDown
markitdown = MarkItDown() 结果 = markitdown.convert(“test.xlsx”) print(result.text_content)
来自 Stephan Ango (优秀、流行的 Markdown 写作和笔记应用程序Obsidian的首席执行官),他还指出Google 文档几个月前添加了 Markdown 导出。除了阅读其他人创建的文档之外,我从未使用过 Google Docs,但 MarkItDown 似乎是一个我可能会充分利用的库。 “MarkItDown”甚至是一个很棒的名字。真是一个世界啊。
对于20 岁的语法来说还不错。