10月16日消息,在OpenAI的Sora引发全网热议之际,谷歌正式发布了新一代AI视频生成模型Veo 3.1,试图在这场AI视频大战中扳回一城。
美国时间周三,谷歌宣布这款旗舰级视频生成工具已面向付费Gemini用户开放,同时支持Flow电影制作平台、Gemini API及Vertex AI平台调用。
谷歌此次更新为其AI视频生成器带来了对象级编辑(Object-level Editing)、多图像场景控制、首尾帧过渡和更丰富的背景音频等功能,让用户在处理每次提示时都能获得更强的创作控制力和电影级画质。
如果说Sora 2是AI界的“抖音”,以快速便捷取胜,那么Veo 3.1就是“奈飞”,它更注重品质、沉浸感与专业控制。这或许标志着迄今为止最实用的AI视频生成工具已经到来。
精准掌控:从“接受结果”到“塑造愿景”
与Sora 2的“生成即所得”不同,Veo 3.1让用户能够精细调整每一个细节。谷歌通过提升分辨率和加速生成,真正将电影制作的能力交到了用户手中。其核心突破体现在:
· 对象编辑:可在任何场景中添加或移除物体,如同视频版的“智能填充”(Content-Aware Fill)。
· 场景延伸:可将视频突破原始结尾,并保留环境音效,实现无缝叙事延续。
· 智能过渡:只需提供首尾两张静态图像,即可生成电影级的开场或结尾转场。
· 多图引导:通过多张参考图像精准控制角色、物件与场景氛围。
对象级编辑:重构叙事的新维度
对象级精准编辑堪称本次最亮眼的升级。用户现在可以像专业剪辑师一样,通过添加或移除物体、人物甚至景观来改变故事走向。
“插入物体”功能现已开放,“移除物体”功能也即将推出。这些升级让场景编辑变得直观简单,无论是让森林中凭空出现猫头鹰与树木,还是将汽车替换为宇宙飞船,都只需简单操作。任何不协调的元素都能通过指向和提示轻松消除。
更令人印象深刻的是,Veo 3.1能够自动处理场景光照与阴影,确保所有编辑都自然融入画面。
四大独门利器:Veo的差异化优势
Veo的真正竞争力在于其模块化创意工具集,让AI成为专业视频工作流的一部分:
· 素材转视频(Ingredients to Video):输入多张参考图像,Veo将其融合成连贯场景,用户全程掌控风格与元素。
· 首尾帧过渡(First & Last Frame):提供首尾静态图,模型便可自动生成流畅转场,完美呈现情绪转换、瞬间移动等效果。
· 场景延伸(Scene Extension):可延续现有视频的叙事,并保持视觉风格与背景音频的连贯性。
· 物体插删(Insert/Remove Object):实现精细化的世界构建与故事讲述,无论是清理画面还是添加新元素皆可。
音频升级:沉浸式叙事新体验
除了画质提升,Veo 3.1在音频方面也有重大突破。新模型提供更丰富的背景音效和更强的叙事理解能力,能够更自然地遵循电影叙事结构。从此,场景能够承载情绪、节奏与基调。
相比之下,Sora仍在节奏把控和语音控制方面存在局限。而Veo 3.1承诺能够理解上下文语境,如同用户的私人制片助理般协助场景创作。
透明定价,成本可控
目前Veo 3.1处于预览阶段,仅面向Gemini API付费用户开放。计费标准延续前代:
· 标准版:每秒视频0.40美元
· Fast版:每秒视频0.15美元
Veo 3.1采用按需计费模式,仅对成功生成的视频收费,无免费额度。这种透明的定价策略便于企业团队进行预算管理。
该模型支持720p/1080p分辨率输出,帧率为24fps。基础时长为4-8秒,通过“延伸”功能最长可达148秒。
特别值得一提的是,企业用户上传产品图像或品牌风格参考后,系统能够精准复现并保持这些视觉元素在不同生成内容中的一致性,这对零售、广告等行业的内容标准化生产极具价值。
全面集成到谷歌生态系统
更新后的视频AI模型将全面接入谷歌生态系统。用户既可通过Gemini应用使用Veo 3.1及其Fast版本进行创作,开发者也能通过Vertex AI平台和Gemini API调用该模型。
今年初亮相的Veo已引发行业震动,在Veo 2发布仅数月后,新一代模型就在视频质量上实现了跨越式进步。显然,YouTube海量的视频资源为AI模型训练提供了得天独厚的条件,如今谷歌又携一系列新功能快步推出了Veo 3.1。
谷歌表示,Veo 3.1对提示词的理解更加精准,不仅能生成更优质的视频内容,还能减少无效计算消耗。作为Veo 3标志性功能的音频系统也得到进一步优化。虽然前代模型的文本转视频功能仅限于生成720p横屏视频,但为适应互联网上日益增长的竖屏内容需求,Veo 3.1已同时支持横屏与16:9竖屏视频生成。
此前谷歌曾承诺将把Veo视频工具整合至YouTube Shorts中,这类短视频与TikTok一样采用竖屏格式。Veo 3.1的发布无疑为这一承诺的落地铺平了道路。可以预见,符合平台格式要求的Veo生成视频未来在TikTok上的出现频率也将大幅提升。
此举也让谷歌在与老对手OpenAI的竞争中保持了火力,后者近期刚在移动端应用中集成了新版视频AI。
技术竞赛:从音频同步到社交适配
今年初在I/O开发者大会亮相的Veo 3曾率先实现原生AI生成同步音频,成为首个具备该功能的视频生成工具。谷歌今年在生成式媒体领域持续加码,其AI图像模型(如生成“纳米香蕉飞船”的示例)也曾引发广泛关注。
然而,OpenAI的强势进击改变了竞争格局。这家ChatGPT制造商不仅推出了新版Sora视频生成系统,还开发了类似TikTok的社交媒体应用。正当Sora邀请码在爱好者圈中一码难求的同时,专家们更担忧其制作逼真深度伪造内容的能力,这或将进一步加剧网络信息生态的恶化,让互联网充斥更多AI生成的劣质内容(AI slop)。
Veo与Sora等AI视频生成器的崛起,凸显了生成式AI在创意行业扮演的争议性角色。众多摄像师、电影制作人和创作者担忧,他们的作品正被用于训练AI模型,最终成为制片公司和流媒体平台替代人类创作者的工具。
在舆论激烈交锋的同时,越来越多的艺术家和作家正以侵犯版权及其他知识产权问题为由将AI公司告上法庭。
随着两大科技巨头在AI视频领域持续加码,这场关于技术创新、创作生态与知识产权保护的复杂博弈正在进入新的阶段。(小小)