Marker 是一个能够快速准确地将文档转换为 Markdown、JSON、块和 HTML 的工具。
工具功能
Marker 支持转换以下格式的文档:
- PDF 文件
- 图片文件
- PPTX、DOCX、XLSX 文件
- HTML 文件
- EPUB 文件
- 支持所有语言的文件
格式化功能
Marker 能够处理各种文档元素:
- 表格、表单、方程式、行内数学公式
- 链接、参考文献和代码块
- 提取并保存图片
- 移除页眉、页脚和其他干扰元素
扩展性
Marker 具有良好的扩展性:
- 可以使用自己的格式化和逻辑进行扩展
- 支持结构化提取,可基于 JSON 模式(测试版)
- 可选择性地使用 LLM 提高准确性(支持自定义提示词)
- 支持 GPU、CPU 或 MPS 运行
使用场景
Marker 适用于需要将各种文档格式转换为结构化文本的场景,如:
- 将 PDF 文档转换为可编辑的 Markdown 格式
- 提取文档中的结构化数据
- 为机器学习项目准备训练数据
- 文档数字化和归档
- 自动化文档处理流程