一张照片+一段音频生成“电影大片”视频！通义万相又一重磅开源

IP属地中国·北京 编辑：顾雨柔智东西 时间：2025-08-27 12:22:32

智东西
作者王涵
编辑漠影
智东西8月27日消息，昨夜，阿里通义万相正式开源全新多模态视频生成模型通义万相Wan2.2-S2V，用户仅需一张静态图片和一段音频，即可通过该模型生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。
Wan2.2-S2V单次生成的视频时长可达分钟级，有望大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。目前，模型已在通义万相官网、Hugging Face和魔搭社区上线。

7月28日，阿里开源视频生成模型通义万相Wan2.2，包括文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B和统一视频生成Wan2.2-IT2V-5B三款模型。其中，文生视频模型和图生视频模型为业界首个使用MoE架构的视频生成模型。
8月11日，Wan2.2-I2V-Flash上线，相比Wan2.1推理速度提升12倍，0.1元/秒，抽卡成功率提升123%。
本次发布并开源的Wan2.2-S2V则更加偏向音频驱动，专攻图像+音频，让画面和音频更加契合。

体验链接：
通义万相官网：https://tongyi.aliyun.com/wanxiang/generate
阿里云百炼API：https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
开源地址：
Github：https://github.com/Wan-Video/Wan2.2
魔搭社区：https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B
Hugging Face：https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
智东西第一时间对Wan2.2-S2V进行了体验，发现其针对真人角色的视频生成，口型对的很精准，手部或身体其他部分的晃动也十分自然，但在动画角色的五官识别还不太精准，并且该模型免费版本排队时间较长且只有一个排队名额。
一、一张照片+一段音频，就能让图片中的人物开口说话
Wan2.2-S2V可驱动真人、卡通、动物、数字人等类型图片，并支持肖像、半身以及全身等任意画幅，用户上传一段音频后，模型就能让图片中的主体形象完成说话、唱歌和表演等动作。
点开Wan2.2-S2V主页，可以看到在聊天框下方有两个方框可以选择模式，视频类可以选择“图生视频”“文生视频”“视频特效”等7个功能。

我上传了一张动画人物“吉伊”的图片，并输入文字“让画面中的角色唱歌”：
“吉伊”不仅动了起来，连身边的星星都跟着旋转，还自己配上了bgm，就是嘴巴的线条没有识别准确：
用户如想要生成人物对嘴型的视频，则需选择数字人选项，上传角色图像。音频可以选择自己上传，也可以用AI生成，AI生成的音频需要用户输入想要的台词并选择喜欢的声线，目前还仅支持中文和英文。

比如，让小狗张嘴唱歌：
让爱因斯坦张口说话：
我还上传了一张欧美男生的人物照片和一段中文音频：
Wan2.2-S2V生成的视频不仅能保证人物形象和原图一致，其面部表情和嘴部动作都能与音频基本对齐，视频人物脸上的光线甚至还可以随着嘴形的变化而变化。
此外，该模型还支持文本控制，用户输入Prompt后可对视频画面进行控制，让视频主体的运动和背景的变化更丰富。
再比如，生成一段音乐MV：
画面中的人物不仅可以对上口型，连手部动作和身体摇晃都在音乐的节拍上，车窗外的画面也可以移动，模拟火车行进的真实场景。
二、历史参考帧扩展至73帧，还支持不同分辨率
基于通义万相视频生成基础模型能力，Wan2.2-S2V融合了文本引导的全局运动控制和音频驱动的细粒度局部运动，实现了复杂场景的音频驱动视频生成。
同时该模型还引入AdaIN和CrossAttention两种控制机制，实现了更准确更动态的音频控制效果。
为保障长视频生成效果，Wan2.2-S2V通过层次化帧压缩技术，将motion frames（历史参考帧）的长度从数帧拓展到73帧，从而实现了稳定的长视频生成效果。
Wan2.2-S2V还可支持不同分辨率场景的视频生成需求, 如竖屏短视频、横屏影视剧。
结语：产业需求推动AI生成视频的技术迭代
文生视频、图生视频赛道真是太卷了。
无论是国内的即梦AI、MiniMax、昆仑万维等，还是国外的Runway、Midjouney等，都在视频生成类大模型上猛下功夫。
就拿通义万相来说，自今年2月以来，通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频驱动生视频等多款模型。
当前，数字人直播、影视制作、AI教育等行业对高效视频创作工具的需求日益广泛。
这种旺盛的产业需求，正成为推动视频生成类大模型技术快速迭代的核心动力，也为赛道未来的发展提供了广阔空间。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

供销大集：截至9月顺客隆社区团购业务订单量已超去年全年

英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了

全站最新

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

热门推荐

Meta重磅产品亮相，AI眼镜概念股强势崛起

中国茶饮，「占领」华尔街

近8000万元！跨界押注屋顶光伏，长高电新背后逻辑是什么？

CIS三巨头半年报透视，增长密码藏在哪？

资本涌入脑机接口：融资频创新高，企业格局一览

上半年增收不增利，民生银行活成了“夹心饼干”

迎驾贡酒上半年净利润下降18.19%：存货创新高，76亿目标如何兑现？

iPhone17 PM橙色版黄牛加价涨至1000元

翟欣欣一审获刑12年，并处罚金10万元赔偿7万余元

影视飓风员工怒怼代理公司：试驾车提供假临牌，中间传个话赚百万

OpenAI惊爆AI"阴谋论"！模型会故意欺骗人类，训练越多反而越狡猾

微软在 Teams 中引入 AI 助手，提升工作效率

英伟达50亿美元入股英特尔，芯片巨头联手重塑AI格局

Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型

Notion重磅发布AI智能体！自动生成会议笔记、竞品分析，20分钟处理数百页文档