📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Pipecat

面向实时语音与多模态 agent 的开源框架,支持低延迟语音交互与多平台 SDK。

简介

Pipecat 是一个开源的实时语音与多模态 agent 框架,旨在构建低延迟的语音助手、交互式叙事与业务流程自动化,提供丰富的 SDK 与服务接入。

主要特性

  • 低延迟实时语音支持(STT、TTS、实时传输)
  • 多平台客户端 SDK(JS、iOS、Android 等)与丰富的服务集成
  • 可组合的对话流水线与插件系统

使用场景

  • 语音助手、会议助手和互动角色
  • 多模态接口与实时通话应用
  • 需要低延迟语音交互的业务系统

技术特点

  • Python 原生实现,支持多种语音/LLM 服务接入
  • 可伸缩的传输层(WebRTC、WebSocket)与丰富示例
  • BSD-2-Clause 许可,社区与企业双向支持

评论区

Pipecat
资源信息
作者 Pipecat
添加时间 2025-09-13
标签
AI Agent 开源项目 项目 TTS