并行扩散架构突破极限，5分钟AI视频生成，叫板OpenAI与谷歌？

IP属地中国·北京 机器之心Pro 时间：2025-11-20 18:21:16

机器之心报道
机器之心编辑部
近日，一家名为 CraftStory 的 AI 初创公司推出了 Model 2.0 视频生成系统，凭借可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频，破解了困扰 AI 视频生成行业长久以来的「视频时长」难题，引起热议，并被视为或将是 OpenAI 的 Sora 和 Google 的 Veo 的强有力竞争者。

资料显示，CraftStory 由全球使用最广泛的计算机视觉库 OpenCV 的创建者 Victor Erukhimov 创立，他是 OpenCV 的早期贡献者之一，参与了 OpenCV 库的开发和维护。此外，他曾联合创立 Itseez——专注于开发运行于嵌入式平台（特别是汽车安全系统）的计算机视觉解决方案，担任首席技术官、首席执行官和总裁，2016 年 Itseez 被英特尔收购。
CraftStory 此次推出的 Model 2.0 视频生成系统在视频时长上的突破，可能会为那些难以扩大视频制作规模以用于培训、营销和客户教育的企业，带来巨大的商业价值。

大家都知道，包括当前的行业佼佼者 OpenAI 的 Sora 2，所生成的视频时长上限也仅为 25 秒，同类模型生成的视频片段也在这个范围甚至更短，虽然生成的视频画面精美、性能优良，但从市场角度考虑，难以将其广泛应用，尤其是一些电影或长剧集。
据了解，CraftStory 之所以能够破解视频时长难题，突破性进展在于该公司的并行扩散架构，这是一种从根本上不同的 AI 模型生成视频的方法。
传统视频生成模型的工作原理是在越来越大的三维空间中运行扩散算法，其中时间代表第三个轴。为了生成更长的视频，这些模型需要相应更大的网络、更多的训练数据以及更多的计算资源。
而 CraftStory会在整个视频播放过程中同时运行多个较小的扩散算法，并通过双向约束将它们连接起来。
据 Victor Erukhimov 介绍，之所以这样做，是因为「视频的后半部分也会影响前半部分，这一点非常重要，因为如果逐个进行处理，那么出现在前半部分中的瑕疵就会传播到后半部分，然后不断累积。」
比如，对于一个 5 分钟的视频片段，CraftStory 的系统不是生成 8 秒的片段，然后拼接其他片段，而是通过相互关联的扩散过程同时处理所有 5 分钟的片段。
另外，在模型训练数据上，除了从互联网抓取视频外，CraftStory 聘请专业工作室，使用高帧率摄像系统拍摄演员，即使是手指等快速移动的物体也能捕捉到清晰的细节，从而避免了标准 30 帧 / 秒 YouTube 视频中固有的运动模糊，从中获取自有素材去对模型进行训练。因为在 Victor Erukhimov 看来，制作高质量视频并不需要大量数据，也不需要大量培训预算，而是高质量的数据。
Model 2.0 是一个「视频到视频」的转换模型：以图像和行车视频作为输入，并利用行车视频中人物的动作，根据图像生成输出视频。用户可以上传自己的视频，也可以使用 CraftStory 提供的预设视频。该模型经过训练，即使在长达数分钟的视频序列中，也能保留人物的身份、情感和细微差别。
目前，该系统可在大约 15 分钟内生成 30 秒的低分辨率视频片段。先进的唇形同步系统可将嘴部动作与脚本或音轨同步，而手势对齐算法则确保肢体语言与语音节奏和情感基调相匹配。
视频一经发布，引起网友热议，有网友认为，「CraftStory 利用并行传播和专有数据打造的长篇 AI 视频是一项明智之举。它突显了深厚的计算机视觉技术如何能够克服庞大的计算预算限制，满足企业对时长至关重要的、以人为本的持续内容的关键需求。」

也有网友认为，Model 2.0 很好地解决了行业中的「8 秒 AI 视频难题」，「这可能会彻底改变公司处理培训、营销和故事讲述的方式。」另外，CraftStory 的视频帧率更高，「OpenAI是不是要好好反省一下……」

资料显示，本周 CraftStory 刚刚完成一轮 200 万美元的融资，相较于大厂动辄数亿甚至数十亿美元的融资来说，这个数额并不高，但 Victor Erukhimov 似乎并不认同「巨额资金是成功的先决条件」。
他在接受媒体采访时谈道，「我并不完全认同计算能力是通往成功的唯一途径，拥有计算能力当然会有帮助。但如果你仅仅靠一份 PPT 就筹集到十亿美元，最终没有人会满意，无论是创始人还是投资者。」
而不同于大多数视频生成企业聚焦消费者的创意工具这一块，CraftStory 瞄准 ToB 市场，更关注企业，尤其是软件公司该如何制作出色的培训视频、产品视频和发布视频。
据 Victor Erukhimov 透露，CraftStory 的下一个重大发展方向是「文本转视频」模型，该模型将允许用户直接从脚本生成长篇内容。此外，团队还在开发对移动镜头场景的支持，包括在高端广告中常见的「边走边说」格式。
https://venturebeat.com/ai/opencv-founders-launch-ai-video-startup-to-take-on-openai-and-google
https://x.com/craftstoryai/status/1991147573592080652
https://craftstory.com/countdown/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

全站最新

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

热门推荐

报道：苹果与美国司法部就反垄断案进行早期和解谈判

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

GameStop CEO：索尼停产实体游戏盘对我们无关紧要

国产大模型Kimi K3自主设计AI芯片：45nm工艺 100Mhz频率

社评：面对人工智能时代之问，世界期待中国方案

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

英矽智能创始人：中国让人工智能惠及全球更多国家

字节两员离职大将，单挑老东家？

阿维塔07L开启预售：全系标配华为ADS 5与896线激光雷达，24.99万元起

对话|大晓机器人董事长王晓刚：商业化落地路径采取先To B后To C