![]()
机器之心编辑部
先给大家看个视频,你能分辨出哪个是 AI 生成的吗?
视频tiktok 博主 @tkp..1001
「真人拍摄还是 AI 生成」,如果搁一年前,这个问题还很容易回答,因为细节处总有一眼 AI 的破绽,但现在,真与假的界限已变得愈发模糊。
越来越多「真实」的视频,评论区里都在争论「这是 AI 吧?」而那些真正由 AI 生成的内容,反倒被当成真实拍摄。
![]()
AI 视频生成技术的进化速度快到飞起,并正渗透进我们生活的方方面面。随之而来的问题是:我们究竟要如何与这些技术共处?
破解这一难题的钥匙或许就藏在人类的想象力中。技术的超越不该只在于对现实的复刻,更应在创新应用中想象更美好的未来。
站在这个视角,阿里云给出了一个颇具想象力的答案:2026 年米兰冬奥会。
就在冬奥会倒计时 30 天之际,作为官方云服务合作伙伴的阿里云,拉着国际奥委会以及⽶兰冬奥组委会搞了波大的,共同发起一场全球 AIGC ⼤赛
![]()
![]()
![]()
大赛 Slogan 为「YOUR EPIC VIBE」,正好与本届冬奥口号「IT's Your Vibe」(意展你风采)遥相呼应。
大赛规则简单粗暴:只需用阿里云的「万相大模型」,在花样滑冰、短道速滑、高山滑雪、单板滑雪经典项目中选一个,生成一段冬奥视频,就能参赛。
除了万相大模型本身,阿里巴巴的 AI 产品生态同样为本次大赛提供了全栈式支持,包括开源开放的开发者社区 Modelscope、AI 创作工具通义万相、堆友,为不同类型、不同渠道的参赛者「保驾护航」。
国际奥委会还直接放话,他们将从这四个项目中各选 25 个最佳作品,纳入奥林匹克博物馆收藏,并组合成奥运史上首个 AIGC 数字艺术影像作品集《YOUR EPIC VIBE》。
这意味着,自 1896 年现代奥运首次举办以来,AI 第一次以这种方式被写进奥运历史。
更刺激的是,Top 100 中将评选出 10 位在叙事创意、情感深度和美学构图上表现最好的获奖者,他们还能直接拿到米兰冬奥会现场门票。
大赛官网:https://summit.aliyun.com/aigcchampionship
AI 视频生成技术卷到现在,终于不只是在社交媒体上刷存在感了。它正以一种谁也没想到的方式,成为奥运历史的一部分。
而要达成这一成就,万相 Wan2.6 凭借其强悍的视频生成能力,化作了参赛者手中最强的那把利器。
用 AI 创造冰雪世界,为何独独选择了阿里云?
在去年 12 月 AI 视频生成大模型又一波涌现的大潮中,阿里云的 Wan2.6 登场。
![]()
Wan2.6 面向专业级影视制作和图像创作场景,进一步提升了画质、音效、指令遵循能力,并新支持多镜头叙事及最长 15 秒生成。此外在国内首次支持角色扮演(Reference-to-video,R2V)功能,本人可以入镜,并用自己的声音出演 AI 视频。
![]()
体验地址:https://tongyi.aliyun.com/wan/
对于此次冬奥赛场上的四大经典冰雪项目,Wan2.6 表现出了极高的可玩性。
我们上手测试的结果说明了这一点。
只见一只可爱的雪人从高山之巅快速下滑,身后拉出一条清晰而绵长的雪线,红色帽子在疾驰中随风摇摆,看起来十分的童趣。如果我不告诉你这是 AI 生成的,可能你还以为这是哪部动画片中的场景呢!
![]()
毛茸茸的怪兽在高山之巅飞速直下,双脚踩着雪板完成流畅的滑雪动作,身体随着地形起伏自然摆动。

小王子也来雪山之巅滑雪了,身披围巾、脚踏雪板,仿佛开启了一段属于自己的冰雪冒险,纯真而浪漫。

穿越千年的兵马俑也献上一段花滑表演:
![]()
除了文生视频、图生视频,现在你也可以指定角色来生成了。Wan2.6 的角色扮演功能,可以将你输入的参考视频进行二次创作,甚至是你亲自上场。
我们先来「呼叫奥特曼」上场速滑。只见他起滑、加速、入弯一气呵成,动作那叫一个专业,完全不像是第一次跨界。专业程度甚至让人怀疑他是不是偷偷报过集训班。
![]()
然后再让马斯克来段花样滑冰,看起来也是有模有样:

与此同时,Wan2.6 在动态表现和视觉冲击力上同样可圈可点。在这一示例中,镜头贴近雪面,紧跟雪板高速前行,低机位带来的速度感与冲击力被充分放大。
![]()
以前在滑雪场,常能看到有人踩着滑板、扛着相机一路跟拍,冒着不小的风险,才能换来几个漂亮镜头。现在,这种高难度的跟拍视角已经不再依赖人工完成,Wan2.6 可以直接在生成过程中自动实现稳定、贴近动作的动态运镜:
![]()
慢镜头同样稳得住。高速下滑被自然放慢的那一刻,雪板切雪的力道、雪屑被甩起又在空中翻滚的轨迹一一展开,原本一闪而过的速度感被拆解成清晰可见的细节。这感觉就像在滑雪场里按下了电影级慢放键。
![]()
就算是高难度的多人场面,Wan2.6 依然能够稳稳驾驭。多名滑雪者同时出现在画面中,彼此之间的相对位置、运动方向与节奏保持清晰,没有出现人物混叠或动作错乱。
![]()
通过上述示例可以看出,Wan2.6 的优势并不在于某一个「炸点」,而是在冰雪运动中「力与美」的呈现上已经达到了相对成熟的水准。
在高速运动、多人互动以及音画同步等关键场景下,Wan2.6 展现出超高的性能。无论是虚构角色还是真人形象,都能够被自然地融入运动场景之中,完成连贯而完整的表演,体现出对运动节奏与视觉叙事的成熟把控。
进一步看,这种稳定性也体现在镜头层面:生成过程中,镜头并非被动记录动作,而是会随着运动推进自动调整视角,在关键节点完成切换,使画面具备基本的分镜逻辑与节奏变化,可以说是深谙运动力学与视觉美学的「数字导演」。
视频生成的多面手,Wan2.6 背后藏着这些「杀手锏」
长期以来,视频生成被认为是 AI 领域最难攻克的堡垒之一。不过从 OpenAI Sora 开启视频「暴力美学」开始,这个领域在各个环节进入到了进化的快车道。
一开始大家追求的目标很简单,让画面动起来;后来一步步加码,提出了更多更高的要求,比如对复杂物理规律的极致模拟、影视级高清画质、原生音画同步、画面连贯与逻辑统一,最终目标是无限接近真实视频。
如今,升级到 2.6 版本的万相大模型已修炼得「炉火纯青」。
首先做到了超真实还原。实现这一点需要解决几个深层次的技术挑战,包括物理规律的准确模拟、时序一致性、细节高度还原、原生音视频的逻辑一致等。
Wan2.6 提供了音画⼀体的多模态参考⽣成能⼒,通过对输⼊参考视频进⾏多模态联合建模与学习,最终实现从画面到声音的全感官一致性保持与迁移。这种「镜像级人物重建」可以精准捕捉并重建你的形象,就连每个微表情都生动至极。
其次能输出衔接连贯的多镜头。视频生成中精准的分镜控制,要求 AI 不仅要生成连贯的画面,还要像人类导演一样理解空间调度、镜头切换和叙事连续性。
Wan2.6 可以一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换。这意味着,视频生成不再是碎片拼凑,并且不管怎么切镜头,视频里的主体都能保持像素级的统一,几乎不会出现镜头一换、主角换脸的尴尬情况。
最后保证叙事完整不偏离主题。生成一段完整的叙事视频,远比几个孤立的炫酷镜头困难得多,其核心挑战在于如何让 AI 具备时间记忆和逻辑常识。
Wan2.6 很好地解决了这些挑战,最长支持 15 秒 1080P 视频生成,并能轻松搞定完整叙事的 Vlog 视频。这使得该模型在短剧制作等专业场景具有广阔的应用前景,只要提示词写得好,输出的视频可直接拿来用,省力又省钱。
一系列底层能力的突破,让 Wan2.6 打破视觉、听觉与物理规律之间的藩篱,为创作者提供了一个生产力级别的视觉生成引擎。
AI for all,在奥运这块阵地「登陆」
去年 7 月,即将成为 OpenAI 史上首位应用 CEO 的 Fidji Simo 发表了一篇文章,主题为《AI:赋能所有人的终极源泉》(AI as the greatest source of empowerment for all)。这篇刷屏的就职檄文再一次让「AI 全民可用」成为热议的焦点。
![]()
文中写到,「我相信 AI 将为更多人带来比历史上任何其他技术都多的机遇。如果我们能做好这一点,AI 将给予每个人前所未有的力量。」但同时,这些机遇并不会凭空出现,不仅要求 AI 达到较高的水准,还要有像阿里云这样勇于创新的 AI 玩家。
现在看来,这场全球 AIGC 大赛成为了「AI for all」的实践阵地。
以往,参与奥运的方式要么花很多钱去现场观赛呐喊,要么在电视机或电脑前守候。如今,AI 终于赋予了每一个普通人更沉浸的奥运体验。
在高山滑道、花滑冰场或单板 U 型场,你我同样可以成为万众瞩目的主角。这正是奥运级 AI 科技首次大规模应用于粉丝互动所产生的魅力。
正如 Fidji Simo 所强调的,「如果我们能够让智能技术无处不在、人人可及,就能驱动人类历史上最大的机遇引擎,并帮助更多人过让更好的生活」。阿里云掀起的这场以万相大模型为主导的交互范式变革,正以自己的方式一步步将这样的愿景落地。
文中视频链接:https://mp.weixin.qq.com/s/_iaiwdraikWZGd49O4zocQ





京公网安备 11011402013531号