作者|市象 景行
开启灰测后的快乐马,反而爆发了更大的口碑分歧。
一部分用户觉得它名不副实。在固定特写、简单场景里,快乐马能做出接近实拍的画面质感,人物细节、材质纹理、环境氛围都足够在线;但一旦进入复杂运动、镜头调度和物理交互,它的短板就会迅速暴露。
快乐马的固定特写镜头表现出色,在简单场景下能实现接近实拍的画面水平,但一到运动镜头、物理规则理解就较为吃力,与Seedance2.0有显著差距。有用户对「市象」表示。
类似判断也出现在机构研报中。国联民生证券列举快乐马的长短板:其在环境丰富度、空间层次、材质纹理和画面饱满度上完成度较高。但当动作复杂度提升后,模型容易出现动作理解不到位、肢体关系错乱、连贯性下降等问题。
换句话说,快乐马更像固定镜头专家,而不是成熟的动作导演。
这与它此前横空出世的姿态形成反差。4月,快乐马曾以匿名身份空降Artificial Analysis全球AI视频评测榜榜首,在文生视频、图生视频两大赛道力压字节Seedance 2.0。彼时,它被视作AI视频赛道的神秘黑马,甚至一度被外界期待为新的SOTA变量。
但灰测之后,神秘感很快被真实使用体验稀释。
我试了三个视频。有评测用户对「市象」表示:可灵有一些小问题,但多抽卡几次无伤大雅,Seedance2.0基本准确,快乐马结果和我要的基本不沾边。
也有用户表示,快乐马与Seedance训练逻辑不同,使用时不宜套用Seedance提示词。使用得当的前提下,快乐马在人物细节、场景渲染上能力仍然出众。
相较侧重骨骼绑定和人物演出精细度的可灵,侧重画面叙事与镜头调度的Seedance 2.0,快乐马的模型特征是高效率、高质量、高可控、低成本,优势场景为批量生产短视频、广告片、口播视频等,而不是承接普通用户对AI电影导演的全部想象。
从技术路线到定价区间,快乐马的战略目标都不是做一款全面碾压竞品的SOTA 视频模型,而是瞄准量产短片市场,成为一款高性价比的商业内容工具。
所以,快乐马的口碑落差并不难理解。普通用户想要的是一个能理解复杂剧情、调度镜头、完成动作叙事的AI导演;阿里想要的,则更像一条能稳定出片、持续消耗、面向商家交付的广告片流水线。
只想干活的快乐马,确实很难让每个普通用户都快乐。那些对它产生心理落差的人,某种程度上是在擅自期待,也在擅自失望。
从模型参数指标来看,阿里快乐马为150亿,而字节Seedance 2.0为220亿。在复杂长视频工程中,快乐马单架构的能力稍显不足,这也是快乐马的市场口碑先高后低的原因之一。
在Artificial Analysis评测中,用户仅通过盲测方式对同一提示词,不同模型生成结果进行投票。快乐马拿下冠军席位,意味着在画面精细度、音视频同步等能力上已经达到行业顶尖水平。
但在用户实测中,一旦遇到镜头运动、角色一致性、分镜头设计等专业要求,快乐马的短板很快就暴露出来。盲测看的是这一条视频够不够惊艳,真实使用中会放大能不能稳定复现的差距。
阿里选择这条技术路线的原因或许是追求极致效率。相较组建一个庞大剧组,一个团队单打独斗可实现省算力、提推理速度两大目标。
按照官方口径,快乐马支持七种语言的精准唇形匹配,不仅降低后期成本,同时推理速度为行业主流模型的2至3倍,单张H100显卡生成5秒1080P视频仅需38秒,算力消耗降低约六成。
这让快乐马有能力在定价策略上,猛挖Seedance 2.0的墙角。
从目前市场的公开信息来看,纯视频输出价格方面,Seedance 2.0约为1元/秒,而快乐马720P、1080P视频为0.9元/秒、1.6元/秒,包月价格下降至0.44元/秒、0.78元/秒。官方宣传,快乐马拥有突出的性价比优势。
高效、低价、短平快,多要素综合起来,才是一个真实的快乐马。看起来更像是擅长拉货且性价比拉满的驴,而非此前把用户心理预期拉满,性能碾压同类的汗血宝马。
尽管彼时尚未有快乐马,但是这段理解其实点明了阿里AI产品的味道。
快乐马诞生于淘天旗下原未来生活实验室,团队聚焦的命题,就是如何利用AI技术降低电商内容的生产门槛。这一基因决定了,快乐马的技术路线与可灵、即梦不同,即便后续划入ATH事业群,来自淘天系的电商内容化需求,依然是它最初的底色。
郑波介绍过的淘宝星辰视频生成模型3.0,与快乐马可以被视作阿里电商内容化的两条战线:淘宝星辰更偏向解决商家图生视频、商品视频化的直接需求;快乐马则探索电商创意广告的大批量生成方案。
从首批邀请客户画像,也能看到快乐马的增长路径。
4月27日ATH宣布,快乐马通过阿里云百炼平台逐步开放API测试,首批邀测对象为企业级客户。
对电商品牌而言需求不是生成电影级的复杂视频,而是更实际的问题口播音画同步是否精确,图片生成视频是否还原,以及视频制作成本能否碾压传统拍摄模式?
这恰好是快乐马的优势区间。
在产品页官方描述中,快乐马擅长以电影级光影质感直出专业画面,运镜稳定转场自然,人物表情细腻动作真实,中近景叙事清晰适配剧情与对话,深度适配广告、电商、短漫剧与社媒创意等生产场景。
以口播支持能力为例,快乐马支持中英日韩德法粤七种语言的音画同步匹配,这也是快乐马的核心卖点之一,这无疑是电商商家的刚需诉求。
在商品演示场景下,画面不需要反复运镜,不需要展示多复杂的物理运动,但需要展示口播声音与口型同步演出,人物动作与音效协调无延迟。
这曾是淘天未来生活实验室的重点技术方向。郑波表示,淘宝全模态大模型TStars-Omni重点打磨了语音识别能力,尤其是电商场景的用户语音,在语音合成方面优化了情感合成、音色克隆等能力,以适配不同场景的配音需求。
千问官方则对快乐马与通义万相的特征,给出了精确结论前者胜在自然稳定,镜头更有戏,在视听精度上建立护城河;后者胜在叙事与运动表现。
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。





京公网安备 11011402013531号