📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Kimi-Audio

开源音频基础模型,支持理解、生成与对话的多模态音频能力。

简介

Kimi-Audio 是一款开源的音频基础模型,整合了音频理解、生成与对话能力,覆盖语音识别、音频问答、音频描述、情感与事件分类等多种任务。

主要特性

  • 通用输入:支持离散语义 token 与连续声学特征的混合输入。
  • 大规模预训练(千万小时级)带来更鲁棒的音频与语言理解能力。
  • 并行输出头同时生成文本与音频 token,支持文本与音频联合生成。

使用场景

  • 语音转写与字幕生成。
  • 带语音输出的对话助手与客服机器人。
  • 多媒体索引与检索的音频理解模块。

技术特点

  • 基于向量量化的音频分词器,还原高保真语音的流式解码器(flow-matching + BigVGAN)。
  • 以文本 LLM 为骨干的多模态 Transformer,支持指令微调与评估套件复现实验结果。

评论区

Kimi-Audio
资源信息
作者 MoonshotAI
添加时间 2025-09-14
标签
开源项目 大语言模型