OneFileLLM 是一款命令行工具,用于从本地文件、GitHub 仓库、网页、PDF、YouTube 转录等多种来源聚合数据,并将它们结构化为单个 XML 输出,便于作为 LLM 的上下文输入使用。
主要特性
- 多源采集:支持本地文件、网页、GitHub 仓库、问题/PR、PDF 与视频转录等。
- 输出统一:将采集结果封装为结构化 XML,便于直接粘贴或传入 LLM。
- CLI 与 Python API:既可作为命令行工具使用,也可通过 Python API 嵌入工作流。
使用场景
- 对研究文献、代码仓库或技术文档做快速上下文打包,以提高 LLM 查询质量。
- 将分散信息整理为单次 LLM 请求的上下文,减少多轮检索成本。
技术特点
- 支持可配置的爬取深度与并发,提供丰富的爬虫选项与清理策略。
- 提供别名系统与可扩展的输入格式(Markdown/JSON/HTML 等)。
- 可通过环境变量使用 GitHub API 以提高仓库抓取能力。