在生成式人工智能迅猛发展的背景下，音频与音乐创作领域迎来了全新的技术变革。从文本生成音乐到跨模态音频理解，一系列以大模型为核心驱动的创新系统正不断扩展声音表达的边界。本简报聚焦于2023至2025年间推出的代表性AI音乐模型与平台，包括英伟达的Fugatto、开源项目ChatMusician、多模态架构MuMu-LLaMA、生成式平台Udio与Suno，以及引入“思维链”机制的Mureka O1。这些工具不仅展示了AI在音乐理解与生成方面的前沿能力，也为音乐制作、教育、游戏、广告等多个应用场景提供了更高效、更多样的解决方案，预示着“声音即语言、音乐即对话”的新时代已悄然到来。

1. Nvidia的Fugatto模型

英伟达（Nvidia）于2024年11月推出了名为Fugatto（Foundational Generative Audio Transformer Opus 1）的生成式人工智能模型，旨在为音乐、电影和视频游戏的制作人提供音频生成和修改的强大工具。Fugatto能够根据文本描述或音频输入生成音乐、声音效果和语音，例如根据描述生成特定的声音效果，或将钢琴旋律转换成人声。此外，该模型可以修改现有音频，如改变录音中的口音和情绪，或添加或移除音乐作品中的乐器。Fugatto还具备生成前所未有声音的能力，例如让小号发出类似狗叫的声音，展示了其在声音设计方面的创新潜力^[1]。 

Fugatto是一个基础生成式AI模型，支持多种音频生成和转换任务，能够处理自由形式的指令。该模型采用了名为ComposableART的技术，允许用户结合不同的指令，实现复杂的音频转换，例如生成带有特定情绪和口音的语音。

在应用场景方面，音乐制作人可以利用Fugatto快速原型化或编辑歌曲创意，尝试不同的风格、声音和乐器。广告公司可以使用Fugatto快速调整现有广告活动的音频内容，以适应不同地区或情境的需求。语言学习工具可以利用Fugatto生成具有不同口音和情绪的语音，提升学习体验。游戏开发者可以使用Fugatto修改预录制的音频资产，以适应游戏中的动态情境，或根据文本指令实时生成新的音频内容。

Fugatto由一支多元化的团队开发，成员来自印度、巴西、中国、约旦和韩国等地。该模型拥有25亿个参数，训练过程中使用了约2000万个来自全球的开源音频样本，展示了其强大的多语言和多口音处理能力。截至目前，英伟达尚未宣布Fugatto的公开发布计划。公司表示，正在制定相关政策，以防止技术被滥用，如生成虚假信息或侵犯版权。

2. ChatMusician

2024年2月，由Skywork AI PTE. LTD.和香港科技大学的研究团队共同推出了ChatMusician，这是一个开源的大型语言模型（LLM），通过持续预训练和微调LLaMA2模型，采用ABC记谱法（一种与文本兼容的音乐表示法）将音乐视为第二语言，实现对音乐的理解与生成，无需依赖外部多模态神经结构或标记器。该模型能够根据文本描述、和弦、旋律、动机、音乐形式等条件，生成结构良好的完整音乐作品，其表现优于GPT-4基线模型。赋予模型音乐能力并未削弱其语言能力，反而在MMLU（大规模多任务语言理解）评估中取得了略高的分数。ChatMusician可应用于音乐创作、教育和研究等领域，帮助用户生成多种风格的音乐作品，或分析和理解现有的音乐结构。该模型已在GitHub上开源，用户可以访问其仓库获取代码和相关资源。通过ChatMusician，用户能够在纯文本环境下实现对音乐的深入理解和创作，为音乐与人工智能的融合开辟新的可能性。

ChatMusician如何通过利用网络来源的音乐知识库和精心制作的音乐乐谱生成指令来学习。这种学习方式不仅让ChatMusician掌握了音乐生成的能力，还使其能够理解音乐，并能够以对话的方式与用户互动。ChatMusician能够执行多种任务，包括但不限于：

聊天（Chat）：与用户进行关于音乐的对话，提供音乐建议或回答音乐相关问题。

作曲（Compose）：基于给定的音乐元素，如和弦、旋律、节奏等，创作新的音乐作品。

回答大学水平的音乐理论问题（Answer college-level music theory questions）：展示其在音乐理论知识方面的理解能力，能够处理复杂的音乐理论问题

3. MuMu-LLaMA

2024年12月，MuMu-LLaMA模型被提出，这是一种多模态音乐理解和生成模型，基于大型语言模型（LLM）处理音乐数据的理解和创作任务，融合了多种预训练组件，包括用于音乐理解的 MERT、用于图像理解的 ViT、用于视频理解的 ViViT，以及用于音乐生成的 MusicGen 和 AudioLDM2。其技术架构基于多种预训练编码器和解码器，以 LLaMA 2 作为基础模型，提供强大的语言理解和生成能力。MuMu-LLaMA 的主要特性包括音乐理解与生成、多模态输入处理以及音乐编辑功能，能够根据文本描述、和弦、旋律等条件生成结构良好的音乐作品，并支持从文本、图像、视频和音频等多种输入形式生成音乐，还具备对现有音乐进行编辑的能力。该模型在音乐创作、教育研究以及多媒体内容制作等领域具有广泛的应用前景，其数据集由腾讯 PCG ARC 实验室和新加坡国立大学联合创建，包含 167.69 小时的文本、图像、视频和音乐注释，通过先进的视觉模型进行标注，确保数据的多样性和高质量。用户可以通过环境搭建、模型加载和 Gradio Demo 等步骤使用 MuMu-LLaMA，其官方仓库地址为 [https://gitcode.com/gh_mirrors/mu/MuMu-LLaMA](https://gitcode.com/gh_mirrors/mu/MuMu-LLaMA)，通过 MuMu-LLaMA，用户能够在多模态环境下实现对音乐的深入理解和创作，推动音乐与人工智能的融合发展^[3]。

4. Udio平台

Udio 是一个由人工智能驱动的音乐生成平台，旨在通过简单的文本提示让用户快速生成高质量的音乐作品。该平台由前 Google DeepMind 研究员创建，于 2024 年 4 月推出，结合了先进的 AI 模型用于歌词和音乐生成，使用户能够创建、定制和分享原创音乐，而无需传统的音乐技能或乐器。其主要功能包括文本到音乐的转化，用户可以通过输入文本描述，如音乐风格、主题、情感和歌词，生成符合描述的音乐；多风格支持，涵盖 EDM、爵士乐、新灵魂乐、极端金属等多种风格；高质量音质，尤其在人声方面表现出色；创作灵活性与互动性，用户可以定制音乐片段长度、进行混音与微调，并在社区中分享作品；易用性与便捷性，用户界面简洁明了，支持快速生成与预览，且兼容多种操作系统和设备；高级编辑工具，允许用户调整流派、人声和乐器等元素，上传音频并应用 AI 编辑功能；社区平台，用户可以分享创作、发现其他用户音乐并与创作者社区互动；专业导出选项，支持下载音频/视频并导出音轨用于专业数字音频工作站^[4]。

Udio 平台的应用场景广泛，包括音乐制作、个人音轨创作、内容创作、音乐教育、广告和营销等。使用方法简单，用户只需创建新项目、输入文本提示、生成音乐、编辑音乐并保存或分享即可。Udio 使音乐创作民主化，适合专业音乐人和业余爱好者，有助于创意和制作过程，并培养了一个社区，用户可以在这里发现新音乐、分享作品并与他人合作。尽管当前是免费的测试版，但 Udio 承诺将持续更新和改进，以支持更多的语言、提供更长的样本、改善音质和增加下一代控制功能。

5. Suno AI

Suno AI是一款生成式人工智能音乐创作程序，旨在通过文本提示生成包含人声和乐器的逼真歌曲。2023年12月，Suno与微软合作，将其作为插件纳入Microsoft Copilot，用户可通过文本提示生成歌曲^[5]。

Suno AI 是一款由音乐和人工智能领域专家开发的生成式音频工具，能够根据用户输入的文本生成高质量的音乐作品。它使用了先进的深度学习和自然语言处理技术，支持多种语言和音乐风格，包括中文、英文、日文等。用户可以通过简单的文本描述，如音乐风格、歌词内容、情感表达等，快速生成完整的歌曲。Suno AI 的核心功能包括 AI 作曲、多风格支持、歌词生成与演唱，以及纯音乐创作。它还提供了定制功能，用户可以调整音乐的速度、旋律等元素，增强歌曲的表现力。

Suno AI 的应用场景广泛，适用于个人音乐创作、商业音乐制作、音乐教育与学习、媒体声音设计等多个领域。例如，个人创作者可以将生活经历转化为歌词，快速生成歌曲；自媒体人可以将其作为高效的音乐制作助手，为视频内容制作背景音乐。此外，Suno AI 还与微软合作，支持通过 Copilot 调用其插件生成音乐。

Suno AI 的使用非常方便，用户只需在 Discord 上注册并进入 Suno 的频道，输入特定的命令和歌词，选择歌曲风格，AI 就可以自动生成歌曲。它还提供了网页版本应用，用户可以在 https://app.suno.ai 上直接使用。

6、Mureka O1

Mureka O1 是由昆仑万维于 2025年3月26日发布的全球首款音乐推理大模型，基于其基座模型 Mureka V6 升级而来，引入了先进的 “思维链”（Chain of Thought，CoT）技术，在推理过程中加入思考与自我批判机制，显著提升了音乐作品的品质、创作效率和灵活性。该模型支持包括英语、中文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语和俄语在内的 10种语言的歌词创作和纯音乐生成，涵盖爵士、电子、流行、乡村、节奏布鲁斯、灵魂乐、蓝调、摇滚、舞曲等多种曲风，以及快乐、放纵、神秘、充满活力、悲伤等多种情感。Mureka O1 通过 CoT 技术，将复杂的音乐生成任务分解为多个步骤逐步推理，先进行初步创作，然后在后续轮次中不断回顾和优化之前的创作结果，提升音乐的质量和连贯性。它还支持歌曲参考功能，用户可以上传音频或 YouTube 链接作为创作提示，使 AI 参考特定风格或歌手的音色，同时提供音色克隆功能，用户可以选择官方提供的多种歌手音色，或上传自己的声音让 AI 学习并复刻，生成个性化专属作品。此外，Mureka O1 实现了行业领先的低延时音乐生成，提供即时、高质量的用户体验，并开放了音乐音频生成API和语音合成API，支持多种输入，还提供基于Mureka V6的模型微调服务。

Mureka O1 适用于音乐制作人、内容创作者、影视配乐等需要高效生成高质量音乐的场景，尤其适合需要多语言适配的国际项目，还支持场景化背景音乐（BGM）生成，用户只需输入场景描述性提示，即可生成与特定场景完美契合的完整背景音乐。它提供了简单模式和高级模式，满足不同用户的需求，简单模式下用户只需输入想要的风格或点击随机选项即可快速生成音乐，高级模式则允许用户输入歌词、添加歌曲描述，进行更精细的创作，并提供音轨分离下载功能，方便用户后续混音与二次创作。在 Meta Audiobox Aesthetics Benchmark 的评测中，Mureka O1 的整体听感表现超过当前主流音乐生成模型 Suno V4，达到 SOTA（State-of-the-Art）水平。Mureka O1 的发布，不仅展示了 AI 在音乐创作中的巨大潜力，也为全球音乐人和爱好者提供了一个强大的创作工具。

参考文献

[1] KERRIS R. Now Hear This: World’s Most Flexible Sound Machine Debuts[EB/OL]. [S.l.]: NVIDIA Blog, 2024-11-25[2025-04-08]. https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/?utm_source=chatgpt.com.

[2] Yuan R, Lin H, Wang Y, et al. Chatmusician: Understanding and generating music intrinsically with llm[J]. arXiv preprint arXiv:2402.16153, 2024.

[3] Liu S, Hussain A S, Wu Q, et al. MuMu-LLaMA: Multi-modal Music Understanding and Generation via Large Language Models[J]. arXiv preprint arXiv:2412.06660, 2024.

[4] https://aipure.ai/cn/products/udio-ai-make-your-music

[5] https://suno-zh.com/