其核心在于 ACE-Step 1.5 采用了新颖的混合架构,其中语言模型充当全能规划器,将简单的用户查询转换为全面的歌曲蓝图。它通过思维链(Chain-of-Thought)合成元数据、歌词和字幕来指导扩散转换器(Diffusion Transformer),并通过内在强化学习实现对齐。这消除了外部奖励模型或人类偏见中固有的偏差,从而实现了精确的风格控制和多功能编辑能力。
ACE-Step 1.5 统一了精确的风格控制和多功能编辑能力,例如封面生成、重绘和人声到 BGM 的转换,同时对 50 多种语言的提示保持严格遵守。该模型已与其他商业和开源音乐生成模型进行了比较,展示了其效率和质量。然而,它也存在一些局限性,包括输出不一致、特定风格的弱点和连续性伪影,这些问题正在为未来的改进而解决。

