简介
Kimi-Audio 是一款开源的音频基础模型,整合了音频理解、生成与对话能力,覆盖语音识别、音频问答、音频描述、情感与事件分类等多种任务。
主要特性
- 通用输入:支持离散语义 token 与连续声学特征的混合输入。
- 大规模预训练(千万小时级)带来更鲁棒的音频与语言理解能力。
- 并行输出头同时生成文本与音频 token,支持文本与音频联合生成。
使用场景
- 语音转写与字幕生成。
- 带语音输出的对话助手与客服机器人。
- 多媒体索引与检索的音频理解模块。
技术特点
- 基于向量量化的音频分词器,还原高保真语音的流式解码器(flow-matching + BigVGAN)。
- 以文本 LLM 为骨干的多模态 Transformer,支持指令微调与评估套件复现实验结果。