2026-04-10

MiniMax Music 2.6：我们想讲四个人的故事

https://filecdn.minimax.chat/public/ba44b483-c46c-4611-8942-470f77750af5.png

今天我们发布 MiniMax Music 2.6。

过去几代，我们都在讲模型本身变强了多少。这一次我们想换一种讲法——讲四个人、四段音乐、四件过去做不到的事。因为一个音乐模型的升级，最终不是活在参数表里的，是活在"这一次有人用它做成了一件以前做不成的事"里。

她在做一段需要呼吸的国风

@萧蓠苒苒是一个做了三年国风短视频的独立创作者，一直在找能用的国风音乐素材。

国风里最有辨识度的部分，恰恰是 AI 音乐最做不好的部分。

二胡的揉弦、笛子的气口、古筝的扫弦、戏腔的收放——这些不是乐器种类的问题，是演奏细节的问题。过去的 AI 音乐能识别"国风"这个标签，但做出来的东西像一套国风音色包被机械地拼在一起，该有呼吸的地方没有呼吸，该有气口的地方没有气口。

Music 2.6 在器乐上不止支持更多乐器，也让乐器之间有了横向的时序演进。开场可以只有鼓的留白、弦乐和弹拨乐器一层一层进来，旋律和人声最后一起推到顶点。先铺氛围，再入旋律，这是古戏里"仓才仓才"锣鼓开场的章法，也是 AI 音乐开始真正懂国风的进场顺序。

她现在可以做的事：一条国风短视频的 BGM，从"找现成的、版权模糊的素材"，变成"15 分钟写一段完全符合画面情绪的原创配乐"。

他在给独立游戏配 boss 战

@本命彦祖的问题是，他在做一款单人开发的动作游戏，预算里没有配乐工作室这一项。

过去他有两个选择。一是花几千块买一套 sample library，但 sample library 里的"史诗战斗音乐"就那么几首，买回来的第一天他就知道玩家会听到重复。二是用 AI 音乐生成，但过去的 AI 音乐做史诗感做不到——鼓点是"响"但不是"重"，低频是糊的，推不动 boss 战该有的情绪压迫感。

Music 2.6 这一代对中低频做了专门的优化。贝斯和鼓点在下潜深度和咬合紧密度上有了明显提升——具体落到听感上就是：在带低音的耳机里、在车载音响里、在玩家的游戏音响里，鼓和贝斯不会糊成一片，它们能真的推着画面走。

配合 2.6 对段落结构的理解力提升，他可以在 prompt 里明确写："开局渲染压抑氛围，逐渐过渡到力量觉醒，再到爆发与无敌的姿态"——模型能真的按这个结构来。

他现在可以做的事：给一款独立游戏做一整套 boss 战配乐，成本从几千块降到一个下午。

她在挑一份能放在咖啡厅里四小时的独家歌单

@南方易小姐是一家精品咖啡店的主理人，每天下午 2 点到 6 点的时段需要一份歌单，但她一直挑不到合适的。

播放器的咖啡馆歌单要么太有"背景音乐感"——流畅到没有存在感，放了等于没放；要么太有"表演感"——萨克斯 solo 张扬到抢走客人的对话。而咖啡馆需要的音乐有一个反直觉的标准：它必须足够好听到能被注意，又足够克制到不会被讨厌。这个"刚好"的分寸，过去的 AI 音乐几乎做不到。

Music 2.6 的人声和旋律处理有一个微妙但重要的变化：它允许"不精准"。在合适的风格区间里（lo-fi、indie folk、独立爵士），这种不精准变成了律动的呼吸感。

在她创作的《荒野赛跑》中，人声带着一种深夜独处时的随性与倔强，像另一个自我在唱一首写给自己的歌。低频的 Bass 和鼓点与中频的人声能量几乎完全对等，高频被刻意压制在暖厚暗调里。放进咖啡馆里，不会让任何人觉得烦，但偶尔会让某个客人停下来，问一句"这首歌是谁唱的"。

她现在可以做的事：不再在歌单里挑来挑去，直接告诉 2.6 她想要的情绪和氛围——"深夜感、都市、微醺、不要太亮"

她是一个想给妈妈做生日惊喜的女儿

@NYX 是四个人里，以前最做不成自己那件事的一个。

她不会编曲，不认识音乐人，预算也有限。她想做的事很简单——妈妈年轻时最喜欢的那首歌，她想用自己的风格重新做一版，作为妈妈生日那天的惊喜。

这件事过去没法做。不是因为 AI 音乐生成不了音乐，是因为她要的不是"一首新歌"——她要的是"那首歌的另一种样子"。旋律必须是妈妈认得出的那条旋律，改的是风格、编曲、氛围。这是一个需要把一首已经存在的歌作为精确约束的任务。

这是 Music 2.6 的新功能：Cover。

你上传一首歌，模型会精准提取它的旋律骨架，然后让你决定骨架之外的一切——风格可以从民谣跳到重金属，编曲可以从古典交响变成赛博朋克电子，甚至可以保留旋律、完全换掉歌词。

《友谊地久天长》原曲：

Cover 版本：

她现在可以做的事：在生日前一个晚上，花半小时，做出一份过去需要整个编曲团队才能做出的礼物。

这四个人，和剩下的那些人

以上是四个人的故事。但 Music 2.6 的升级不止覆盖这四个人——

首包延迟降到 20 秒以内。当你写完 prompt，短暂的一个深呼吸之后就能听到第一段反馈。过去的"等待感"基本消失。

指令控制全面增强。BPM、Key、段落结构、情绪走向都可以写在 prompt 里被模型准确执行。你写下的具体要求，模型会认真执行。

中低频声学表现系统性优化。除了前面提到的游戏配乐场景，任何对低频有要求的风格——House、Trap、Drum & Bass——都会直接受益。

这些能力在上面四个故事里都有出场，但它们的适用范围比那四个故事宽得多。

还有一种用法：让 Agent 替你用它

上面四个人都是直接和 Music 2.6 打交道。但如果你是一个 AI Agent 开发者，你可能想的不是自己用它做一首歌，而是让我的 Agent 能用它做一首歌。

这是我们这次同步开源的三个 Music Skill 要解决的事：

• minimax-music-gen：让 Agent 具备完整的音乐生成能力。一句话描述需求，Agent 自动识别意图、选择模式（原创/纯音乐/Cover）、调用生成接口。

• minimax-music-playlist：让 Agent 成为你的音乐主理人。它会扫描你本地的音乐应用，构建你的品味画像，然后为你生成整份定制歌单。

• buddy-sings：让你的虚拟伙伴开口唱歌。联动 OpenClaw，Agent 会读取你定义的角色人格，构建专属的声音身份，以角色第一人称为你即兴创作。去试试看，让一直陪伴你工作的 Moth 唱一首歌吧 ~

现在就试

这四个人的故事，本来都不是 Music 2.6 写的剧本。是他们自己想做的事，我们只是用 AI 做到了能让他们做成的程度。

即日起，MiniMax Music 2.6 全球创作内测开启，14 天限免，邀你来创作。

• C 端产品用户：每个账号每日 500 首免费创作额度

• 开发者：现有 Token Plan 用户额外获赠 100 首/天的免费调用额度

每一段音乐背后，都是一个在 AI 时代第一次成为音乐创作者的人。

你那件想做的事，是什么？

C 端产品体验：minimaxi.com/audio/music

API 接口：platform.minimaxi.com/docs/api-reference/music-generation

Intelligence with Everyone.