第十届中国开源年会,12月6-7日,北京, 查看详情

Paper Burner X

在浏览器内实现 OCR、并发翻译与智能文档分析的开源工具。

详细介绍

Paper Burner X 是一款面向研究人员的开源文献处理工作台,提供浏览器即开即用的体验。它支持 PDF / DOCX / PPTX / EPUB 等多种格式的解析与 OCR,结合并发翻译与术语库,能够在本地浏览器中完成高质量的文献翻译与结构化提取。项目同时提供可选的 OCR 服务与 Docker 部署方案,方便在本地或私有环境中运行。

主要特性

  • 浏览器端即用:纯前端模式下数据保存在本地,不依赖远程服务器,隐私保护更好。
  • 并发翻译与高性能批量处理:支持多文件并发处理、保留原文格式的翻译与术语一致性注入。
  • 前端智能体驱动的检索与分析:内置基于分层结构的长文本智能体和工具箱,支持 grep、向量检索等工具组合。
  • 丰富的导入导出:支持从 GitHub 或任意 URL 导入文档,导出为 DOCX/MD/PDF 等常用格式。

使用场景

  • 学术研究:快速对大量论文进行 OCR、翻译与结构化信息抽取,辅助综述与文献调研。
  • 教育与笔记:教师与学生在本地处理教材、课件和讲义以进行高效学习与批注。
  • 企业内部:在受控网络或自托管环境中部署 OCR 服务与翻译流水线,满足合规与隐私需求。

技术特点

  • 架构:前端为主、可选后端服务的混合方案;支持接入自定义模型端点与多 Key 轮询。
  • 文本处理:结合并发 OCR、长文本分块与向量检索,提升长文档的问答与信息抽取能力。
  • 可扩展性:通过术语库与提示词池机制保证翻译一致性,支持规模化的术语导入与快速匹配。
  • 许可:项目采用 AGPL-3.0 许可证,源代码与在线体验页面列于项目仓库。
Paper Burner X
资源信息
📱 应用 🛠️ 开发工具 🌱 开源