📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Marker

快速准确地将PDF转换为Markdown、JSON、块和HTML的工具。

Marker 是一个能够快速准确地将文档转换为 Markdown、JSON、块和 HTML 的工具。

工具功能

Marker 支持转换以下格式的文档:

  • PDF 文件
  • 图片文件
  • PPTX、DOCX、XLSX 文件
  • HTML 文件
  • EPUB 文件
  • 支持所有语言的文件

格式化功能

Marker 能够处理各种文档元素:

  • 表格、表单、方程式、行内数学公式
  • 链接、参考文献和代码块
  • 提取并保存图片
  • 移除页眉、页脚和其他干扰元素

扩展性

Marker 具有良好的扩展性:

  • 可以使用自己的格式化和逻辑进行扩展
  • 支持结构化提取,可基于 JSON 模式(测试版)
  • 可选择性地使用 LLM 提高准确性(支持自定义提示词)
  • 支持 GPU、CPU 或 MPS 运行

使用场景

Marker 适用于需要将各种文档格式转换为结构化文本的场景,如:

  • 将 PDF 文档转换为可编辑的 Markdown 格式
  • 提取文档中的结构化数据
  • 为机器学习项目准备训练数据
  • 文档数字化和归档
  • 自动化文档处理流程

评论区

Marker
资源信息
作者 Datalab.to
添加时间 2025-08-21
标签
实用工具