当前位置: 首页 » 资讯 » 科技头条 » 正文

2026拜年别写对联了,让AI替你写首歌吧

IP属地 中国·北京 量子位 时间:2026-02-12 18:24:57

西风 发自 凹非寺
量子位 | 公众号 QbitAI

AI又在某个方面悄悄超越我了——这次是五音比我全!

刚听到这首新歌,我还以为出自哪位实力派“小刀郎”……一两句话说不清,直接来听吧:



音频链接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg

故事大概是这样的:

一位刚考完试、顺利毕业的少年,诉说着对老师与同窗的不舍,藏着少年独有的懵懂青涩,也怀揣着对未来的满心憧憬。

制作精良吧?跃动的节奏、流畅的旋律、跌宕的情绪,不失专业水准。

但你敢信?从写词到编曲,整首歌全是AI一键生成。

“小刀郎”们,只是一句话表达了自己的想法,然后等待不到一分钟,就能产出2–6分钟完整音乐,整体结构稳定、音调不跑偏、人声音色自然不漂移的那种。

这一切,出自于专注自研音乐大模型的AI公司自由量级,刚刚发布的新模型——音潮V3.0

相较于前代,音潮V3.0在演唱质量、整体悦耳度与记忆点、编曲丰富度、音乐完整性等方面均实现显著提升。



目前,音潮V3.0已正式登陆网页端与官方App,面向所有用户免费开放试用

既然如此,量子位童鞋又要整活了,实测走起~

AI“灵魂歌手”为你写歌

打开App,可以看到有四种创作模式:一句话写歌、照片写歌、歌词写歌、热歌改编

此外,用户还可以创建音色,用自己的声音生成,主打一个就算你五音不全、更不会词曲创作,AI也能帮你实现原地出道。



先来看“一句话写歌”,操作简单直给:输入一句话,描述你想要的歌曲风格或内容即可。

比如,我们输入一个有关祈愿新年好运来、霉运退的提示词:

退!退!退!霉运退散专属战歌。

如果一时不知如何表达,系统提供“一键AI润色”与“灵感提示”功能,把使用门槛一降再降。



输好提示词后,你还可以根据具体使用场景,灵活选择两种创作模式

片段模式”专为短视频、社交媒体分享等短内容场景设计,直接生成结构紧凑、高潮突出的精华段落。完整模式”可生成2-6分钟的成熟作品,涵盖主歌、副歌、间奏等完整结构,更适合个人作品或深度表达。

系统会根据歌曲风格自动匹配推荐音色。如果你已提前创建了个人专属音色,也可在此处选择使用,让作品更具个人辨识度。



一切设置就绪,点击“生成歌曲”按钮。

不到一分钟,一首属于你的全新歌曲便创作完成,来听听看:



音频链接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg

prompt理解到位,旋律清晰,节奏踩点也很带感,还有点魔性上头(本人已开启循环播放)。

歌词始终紧扣“霉运退好运来”的核心,金句频出——

“你喊一声我就亮一盏灯,我们合声就把黑夜推翻,不是等风来而是自己生风”“旧烦恼打包寄往北极圈”“今天只收快递不收坏消息”……这小汁挺有网感挺会写啊。



英文歌也支持生成,效果那是相当燃:



音频链接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg

当然,如果你本身就擅长写词,或是有现成歌词,也可以直接使用“歌词写歌”模式。

在这个模式下,你只需要把歌词复制粘贴到输入框,简单做好分段就行。支持主歌、副歌、间奏、桥段等多种常见段落结构,还可以用自带“歌词优化”功能一键优化。

风格在输入框下面另外设置,官方提供了多种预设风格,也支持自定义。流派、情绪、乐器、语言(中英文)、人声性别,都可以自由选择。



比如,随便输入一段简单浪漫的小歌词,让它帮忙一键优化打磨、再依词谱曲,成品出炉:



视频链接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg

黑胶轻旋,慵懒沉醉,氛围感直接拉满~

接下来“照片写歌”玩法就更简单了,只需要上传一张照片,不用写prompt,也不用设定风格。模型能够读懂图片内容,自动生成适配的词曲



比如咱随手选一张参考图来生成一小段(片段模式),听听怎么个事儿:



视频链接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg

各种曲风都能拿捏。

再来一张车内视角公路随拍,下次旅游发社交平台就用这个BGM:



视频链接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg

第四种玩法“热歌改编”,就是在别的作品之上再做改编,这里就不具体展开了~感兴趣的童鞋可以自己上手试试。

顺便一提,音潮生成的所有歌曲,都能直接下载音频或视频,视频还会自动配AI生成的封面,可编辑歌名,发圈超方便。



实测一圈下来,音潮确实把音乐创作这件事,变得比想象中容易得多。

不懂乐理、不会乐器、也没有编曲基础的普通人,只需要把自己的故事或情绪写下来,就能生成一首结构完整、表达清晰的歌曲。那些原本停留在脑海里的日常片段,也终于有了被音乐承载的可能。

更关键的是,它不只是好上手,成品质量也经得起反复听。

旋律走向自然,副歌有记忆点;编曲结构连贯,没有明显拼贴感;人声细节处理得也比较克制,不会有明显僵硬或AI机械感。整体听感已经超出了试玩的范畴,是可以拿得出手、值得分享的作品。

那么,音潮是如何做到的?

背后是音乐与技术的相辅相成

进入AI音乐深水区,纯粹的算法迭代往往会触碰到“审美的天花板”。

许多模型之所以缺乏“乐感”,是因为算法研发往往难以将抽象的音乐理论转化为具体的优化目标,导致技术与艺术之间存在天然的认知鸿沟。

而在音潮,这种隔阂被彻底打破。

他们的成员热衷于贡献自己的音乐认知,从复杂的乐理逻辑到细腻的编曲美学,大家积极参与每一次技术讨论,将感性的音乐直觉精准“翻译”为理性的算法语言。

这种跨界融合,有效弥补了单一技术视角对音乐本体理解的匮乏,将专业的音乐知识真正注入到了算法迭代的血液中。

正是这种“音乐+技术”的双螺旋驱动,让音潮V3.0的生成不再是单向推理,而是建立在乐理认知之上的创作行为。

所以,音潮V3.0的升级具体都表现在哪些方面?

首先,最直观的变化,是演唱质量的大幅提升

通过引入团队自研的双轨建模机制[1],音潮V3.0将人声与伴奏拆分建模,在不同语义空间中分别学习特征,再在高层结构上完成融合。

这样既避免了人声与伴奏之间的信息干扰,又能精准匹配二者在节奏、和声上的协同关系。



在此基础上,引入团队研发的HEAR框架的分层增强策略与混合训练目标,既保证转音、滑音等演唱技巧的精准复刻,又通过对音乐美学维度的层级学习强化模型对歌曲情感的感知能力,让模型学习不同审美维度下的表达逻辑,而不仅仅是满足于“唱准”。

最终带来的体验,差异化优势很明显:它不再只是把歌词唱出来,而是会根据语义和情境调整唱腔——悲伤不再只是慢,而是情绪收敛;激昂不再只是高音,而是张力推进。

演唱开始具备叙事能力。



其次,旋律层面的变化同样明显

当前AI音乐普遍存在一个问题——听感顺畅,但缺乏记忆点。

音潮V3.0的旋律生成机制显著增强了动机设计能力。音符之间的张力分布更有结构意识,高潮与铺垫之间的关系更清晰,副歌段落更容易形成可辨识的Hook。

换句话说,它开始具备“写副歌”的能力。旋律不再只是线性流动,而是带有意图地构建高光片段,使作品在情绪与听觉上都能留下锚点。

当旋律和人声站稳之后,编曲的整体性、多样性也随之提升

音潮V3.0在风格建模上更成熟,能够根据不同音乐类型自动匹配更合理的配器策略。乐器之间不再是简单叠加,而是围绕主旋律展开分工,段落之间的起承转合更加自然,桥段衔接更平滑,节奏层次也更清晰。

与此同时,声音的“物理质感”被重新打磨。音潮V3.0采用团队自研ϵar-VAE[3]核心技术对空间信息进行独立建模,并将这套高保真重建方案应用到整体生成链路中。

ϵar-VAE引入了对空间信息的表征与监督手段,能够准确还原高质量音乐中涉及时序性空间转移的设计细节——比如编曲里鼓组段落的Tom过门、混音中乐器混响的自动化运动等。

鼓点的冲击力、电吉他的颗粒感、混响的空间层次,都比以往更加清晰。听感不再只是单纯高保真的频率响应,而是真正还原了乐曲中复杂的层次安排与空间设计。



这些改进叠加在一起,带来的变化并不是某个单点突破,而是整体听感的升级。

不过,技术难题并不止于生成。

音乐评价本身就是高度主观的领域,缺乏绝对客观的自动化指标。

为此,自由量级建立了专业评价团队,构建了细粒度评审体系

评审维度极为细致,涵盖旋律动机、人声表现(特别是中文特有的声调与情感处理)、编曲丰富度、乐器音质还原度、整体风格统一性等。

他们还构建了大规模的强化学习标注数据库,将人类审美映射进模型参数空间,实现“人机审美对齐”。

自由量级CTO兼执行CEO姜涛博士表示,审美对齐是一大核心挑战,“如何把不同背景的标注人员的品位,收敛到一个普适的、可信的审美共识上,并用数据让模型真正理解这种美”,这个过程他们迭代了无数个版本,最终目的是让AI的创作判断无限趋近于资深音乐人的行业直觉。

团队的一系列成果,现已获得国际权威学术舞台的正面验证。

在声学与音频领域的国际顶会ICASSP 2026上,首届“歌曲美学自动评估挑战赛”结果揭晓,自由量级打造的AI音乐评价系统(BAL-RAE),在全球多支研究团队的激烈竞争中表现突出,斩获Task 1(歌曲综合美学评分)全球第二名



从早期无模型可用的拓荒,到如今在人味、音乐性、编曲丰富度等关键维度上达到行业领先水准,自由量级的技术路径真正的护城河,来自于其在最底层的模型架构、数据与审美对齐上,所进行的漫长而坚定的全链路投入。

值得一提的是,这种投入并非封闭。

音乐行业本身是一个相对闭源的生态,商业公司的技术方案大多藏在围墙之后。自由量级原本可以守着这套自研体系闷声赶路,但他们选择把部分研究成果与模块对外开源

产品上让人人都会写歌,技术上让更多团队有路可走。一家已经有商业解决方案的公司,还愿意向开源社区输送自己的技术细节和组件,这件事本身就很难得。

更多开源成果可查阅自由量级技术团队ear-lab主页:https://eps-acoustic-revolution-lab.github.io/ear-lab



技术能跑到这个水位,往往不是偶然。顺着模型和产品往回看,背后的团队,其实更值得展开说一说。

一群懂音乐的人,要让每个人都能用音乐表达

和团队交流时,一个非常直接的感受是:他们做音乐AI,并不是从模型能力有多强出发,而是从音乐创作这件事本身出发。

自由量级,成立于2023年,专注于AIGC与多模态大模型研发。核心团队极具特色:人均音乐人。

CTO兼执行CEO姜涛笑称“我们的算法团队都能拉出个乐队了,吹拉弹唱都够了”。工位上吉他、Populele随手抓,写代码的间隙能直接jam一段。

专业评价团队负责人虽工科出身,但也是个音乐人,还曾给一线音乐人写过词、做过曲。这样的角色承担了双向翻译的工作——既能理解音乐语言中的情绪张力与风格表达,也掌握算法体系中的指标逻辑与优化路径,弥合两个领域之间的认知差异。

有意思的是,这种协作时也常产生有趣的碰撞。姜涛透露,有时作为音乐人觉得某首生成作品极具感染力,算法侧从语谱图或结构指标看却不达标;某些实录乐器的“模糊感”在技术指标上算作缺陷,听感上却更显拟真。

正是这种持续的拉扯,让产品在技术可控与情绪惊喜之间找到了动态平衡。



向上生长,打磨模型的人味与质感;向下扎根,还要把这些能力铺到离普通人最近的地方。对自由量级而言,这两件事从来不是割裂的——技术越往上走,越要往下落得实。

目前,音潮已进入多家厂商的音乐生成接口服务供应链,覆盖音乐创作工具、MV生成、图片转视频等多个方向;线下与KTV的合作也在推进,未来用户或许可以在包房里唱自己写的AI原创歌。就连2025年WAIC大会的官方主题曲《AI For Good》,从作词、作曲到人声演唱,也由音潮大模型全栈支持完成。

“音乐消费是分层次、分场景、分人群的”团队表示,“我们的服务甜点,恰恰站在离大家最近的地方。”

理念层面,他们强调让人人都能创作音乐;机制层面,音潮用户协议明确AI生成音乐的版权归属用户,并为创作者提供版权认证协助。从专业舞台到KTV,从影视配乐到朋友圈BGM,音乐正在经历一次工具形态的转变。

姜涛博士自信且坚定:“滴滴司机、外卖小哥,他们有故事、有想法,缺的是工具。他们完全可以是这个时代的‘周杰伦’。

参考文献:
[1]https://arxiv.org/abs/2511.20224
[2]https://arxiv.org/abs/2511.18869
[3]https://arxiv.org/abs/2509.14912

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新