7月23日,昆仑万维(300418)为全球用户带来最新音乐模型Mureka V7,以及全新的音频模型Mureka TTS V1——支持Voice Design音色设计能力。
用户使用Mureka V7,只需要输入歌词或选择风格、主题,再点击“生成”,即可生成一首歌。这不仅是一次效率的大幅跃迁,更是音乐品质的质变。
据了解,传统的自回归(Autoregressive, AR)模型虽然已经具备较强的音频保真能力,但其基于逐token预测的范式,本质上并不符合人类在音乐创作中“先规划整体,再填充细节”的思维过程,这种不匹配往往导致生成音乐缺乏连贯的结构性与艺术性。
基于此,公司在Mureka V7版本大幅优化了MusiCoT (Analyzable Chain-of-Musical-Thought Prompting)技术,专为音乐生成而设计的链式思维(Chain-of-Thought, CoT)提示方法。该方法显著提升了模型生成结果的整体性与发声表现。
据介绍,MusiCoT 技术在正式生成音频token之前,先引导模型生成一份全局音乐结构规划,明确整体的段落、情绪、编配等布局。这一过程有效解决了传统AR模型中“只顾局部,不顾全局”的问题,使生成作品具备更自然的乐章推进与情绪递进。
此外,通过结合CLAP(对比式语言 - 音频预训练模型),MusiCoT 构建出一条具备明确语义指向的“音乐思维链”,不仅让整体结构更可分析与可控,更允许输入任意长度的参考音频作为风格提示,从而提升模型在复刻、变奏等创作需求中的灵活性,规避直接复制的风险。
同时,基于大量实验,MusiCoT技术在主观与客观双重指标下均展现出卓越效果。无论是结构完整性、旋律连贯性还是整体音乐性,均优于传统方法,且在多项评测中表现已达到行业一流水准。
在本版本中,MusiCoT技术不仅在结构层面实现了对音乐创作思维的拟合与对齐,更通过Mureka团队数据的scale-up以及Embedding信息粒度的细化,完善了强可控性与可扩展性,最终实现了文本-音频模态之间的差距进一步减小。公司表示,未来将持续迭代该技术,进一步提升AI音乐生成的创意性与工业化能力。
此外,昆仑万维还首次推出Mureka TTS V1,支持Voice Design能力,用户可以通过文本输入想要的语音特征获得对应的音色。(燕云)