第十届中国开源年会,12月6-7日,北京, 查看详情

ChatGPT Atlas 架构解剖:为什么体积巨大、运行方式不同、Agent 又如此缓慢?

从开发者视角系统拆解 ChatGPT Atlas 浏览器为何体积庞大、架构复杂、与 Chrome 完全不同,并深入解释 Agent 模式的运行机制与限制。

AI Native 浏览器的体积和复杂度不是缺点,而是新一代操作系统形态的必然结果。

Atlas 的体积为何远超 Chrome?到底多了什么?

Atlas 的安装体积达到数 GB,这一现象并非偶然。它不仅仅是传统意义上的“浏览器壳程序”,而是集成了多种核心组件:

Chromium 渲染内核(Chromium Rendering Engine) + 独立 AI Runtime(AI Runtime) + Agent 安全沙箱(Agent Sandbox) + 全局上下文管线(Global Context Pipeline) 的组合体。

Chrome 只是网页渲染器,而 Atlas 已经成为一个 AI 工作流执行环境。

Atlas 的架构设计决定了其体积远超传统浏览器。

Atlas 与 Chrome 的核心区别:多了一整套 AI Runtime

很多人认为 Atlas 只是“Chromium + AI 功能”,但实际情况远比这复杂。Atlas 在 Chromium 基础上,额外叠加了完整的 AI 子运行时(AI Sub-runtime),形成了独立的系统级子操作环境。

下方的流程图展示了 Atlas 在 Chrome 基础上新增的 AI 子系统:

图 1: Atlas 在 Chrome 基础上新增了 AI 子运行时
图 1: Atlas 在 Chrome 基础上新增了 AI 子运行时

这并非简单的功能扩展,而是系统级的架构升级。

Atlas 的本地数据结构:不是缓存,是完整浏览器 + AI 子系统

Atlas 首次启动时,会在本地生成独立的 host Profile,路径如下:

/Users/<user>/Library/Application Support/com.openai.atlas/browser-data/host/

与 Chrome 相比,Atlas 的数据结构更加庞大,包含多种核心数据:

12K  AmountExtractionHeuristicRegexes
960K AutofillStates
4.0M BrowserMetrics-spare.pma
169M component_crx_cache
93M extensions_crx_cache
1.1M OpenCookieDatabase
2.7G OptGuideOnDeviceModel
19M Safe Browsing
123M screen_ai
1.7G user-<uuid>
...

这些数据不仅仅是浏览缓存,更包括:

  • Chromium 完整 Profile(Cookie、Local State、Shader、Safe Browsing 等)
  • Atlas 专用 AI 模型与特征数据
    • OptGuideOnDeviceModel(推理引导模型)
    • screen_ai(页面结构理解模型)
    • WasmTtsEngine
  • Agent 执行轨迹与上下文持久化
    • 全部保存在 user-<uuid>

Chrome 只需保存渲染缓存,而 Atlas 还需存储 AI 运行状态、DOM 语义摘要、Agent 执行痕迹以及大语言模型(LLM, Large Language Model)上下文片段,因此体积自然以 GB 为单位。

Atlas 只有一个 host Profile 的原因

Chrome 支持多个 Profile,而 Atlas 仅有 host/user-<uuid>。其原因在于:

  • Agent 工作流依赖全局上下文,无法碎片化
  • AI Memory 需要跨页面共享
  • OpenAI 的 IPC 与安全沙箱设计目前仅支持单一主体

这属于架构层面的限制,未来可能会有调整。

Atlas 的进程架构:比 Chrome 更复杂

Chrome 的多进程架构主要包括:

  • 主进程
  • 扩展进程
  • 渲染/网络进程

而 Atlas 的进程架构则更加复杂,包含:

  • 主进程(Chromium Shell)
  • 渲染进程(DOM/JS)
  • AI Runtime 进程
  • Agent Sandbox 隔离环境
  • 页面抽取与语义解析进程
  • 安全策略与权限仲裁进程
  • 模型推理协调层(LLM Orchestrator)

每个层级之间都通过严格的进程间通信(IPC, Inter-Process Communication)进行数据交互,没有任何一步是“脚本级执行”,确保了安全性与可靠性。

Atlas Agent 的运行原理:为什么慢?为什么不像脚本?

Atlas 的 Agent 并非直接执行脚本,而是通过多轮推理与安全沙箱机制完成任务。每一次动作都包含完整的大语言模型(LLM, Large Language Model)推理、DOM 观察、沙箱执行与再推理。

Agent 的运行流程如下:

  1. LLM 决策下一步
  2. 沙箱执行动作
  3. 生成新的页面观测(结构化 DOM)
  4. LLM 再次推理下一步
  5. 循环直到任务结束

因此,Atlas Agent 的执行特点包括:

  • 速度永远比脚本慢(如 Playwright/Selenium 直接执行)
  • 必须隔离以保证安全
  • 多轮推理确保可靠性
  • 结构化 DOM 便于模型理解页面内容

这也是 Agent 速度较慢的根本原因。

Atlas 正在向“AI Native OS”演化

Atlas 的能力已远超传统浏览器,正逐步向 AI Native 操作系统(AI Native OS)演化。下表对比了两者的核心能力:

这是 Atlas 与传统浏览器能力的对比表:

能力浏览器AI OS(Atlas)
渲染网页
执行 JS
页面内容语义理解✘(只有解析)
自动化执行任务插件内建
任务级推理
跨页面工作流程
Agent 安全沙箱
全局 AI 上下文
表 1: 传统浏览器与 AI OS(Atlas)能力对比

Atlas 已经具备 AI OS 的 30%~40% 核心能力。它不仅仅是浏览器,更是:

AI Runtime + 渲染引擎 + Agent 工作流执行器

总结

Atlas 表面上看似浏览器,实则是一个重量级 AI Runtime:

  • 体积庞大:本地需存放 AI 模型、特征数据与 Agent 上下文
  • 进程复杂:安全、推理、DOM 抽取均需独立管线
  • Agent 执行缓慢:每一步都需推理,而非直接脚本执行
  • Profile 巨大:保存的是 AI 系统状态,而非简单缓存

Chrome 是网页处理器,而 Atlas 已经成为 AI 工作流引擎,两者本质上属于不同的技术物种。

文章导航

评论区