AudioFly – 科大讯飞开源的文生音效模型

智能 PRO 稿源：AI工具集 2025-10-05 18:32

AudioFly是什么

AudioFly 是科大讯飞开源的文本生成音效的AI模型。模型用潜在扩散模型架构，拥有10亿参数，通过大量开放数据集（如AudioSet、AudioCaps、TUT）及内部专有数据训练而成。AudioFly 能根据文本描述生成高质量音频，采样率高达44.1kHz，生成的音效与文本描述高度匹配。模型在单事件和多事件场景下均表现出色，在AudioCaps数据集上性能卓越，超越以往的音频生成模型。AudioFly 适用短视频配音、有声故事生成等领域，为声音创作带来无限可能。

AudioFly的主要功能

文本到音效生成：根据用户输入的文本描述生成对应的音效。例如，输入“雷声在远处轰鸣”，模型能生成相应的雷声音效。
高质量音频输出：生成的音频采样率为44.1kHz，音质清晰，适合多种应用场景。
多场景支持：支持单事件（如“狗叫”）和多事件（如“狗叫和风声”）场景的音效生成，能准确反映描述内容。
高效生成：基于先进的扩散模型架构，生成过程高效，能快速响应用户需求。

AudioFly的技术原理

潜在扩散模型（LDM）架构：AudioFly 用潜在扩散模型架构，一种基于深度学习的生成模型。模型通过逐步去除噪声生成目标音频，类似于图像生成中的扩散过程。
大规模数据训练：模型在大量开放数据集（如 AudioSet、AudioCaps、TUT）及内部专有数据上进行训练，数据涵盖各种音效和场景，使模型能生成多样化的音效。
特征对齐：通过优化模型的训练目标，确保生成的音频在特征上与真实音频高度一致，同时在内容上与文本描述紧密对齐。