文|邓咏仪
编辑|苏建勋
在AIGC领域,廖谦可能是国内为数不多,亲手做过千万美金级收入的明星产品,从产品研发、商业化到全球化市场都有涉猎的一位“多面手”。
他的职业路径,也正好和技术拐点相吻合:最早,他在腾讯云做过最早的To C换脸产品,上线十几天就达到千万DAU;
2022年,Midjourney爆火之时,他是字节内部最早一批探索多模态能力的人,从0到1设计和推出了火山引擎Top1流量产品“智能创作云” ,为数千家中小商家提供营销和自动化服务,并在剪映发起出海项目Pippit,如今已经月活超过百万用户。
到2024年初,Sora的发布让廖谦意识到,多模态的ChatGPT时刻或许快要来临。他当即决定加入多模态明星初创生数科技,带领Vidu产品、研发、营销、运营上百人团队,和这家公司一同走过从0到1的冷启动到千万美金收入的阶段。
和廖谦共事过的人说,他的做事风格“很狼性、行动迅速”,这也是为什么,当他在8月决定创立公司“极致上下文”(Apex Context)时,引来了一轮投资人的争抢。
廖谦说,他的融资PPT还没来得及画好,在半个月内就迅速敲定了数百万美金首轮融资。本轮融资由硅谷美元基金HT investment、BV百度风投联合投资。其中,HT investment是源自硅谷、布局全球的新一代美元基金,专注投资AI驱动的科技与社交娱乐领域。
9月末,Sora App发布,他又一次感受到技术变革带来的战栗。“那天晚上我在冒冷汗。”他坦言,那天本来和团队成员一起加班,看到Sora上新,迅速取消了第二天的所有会议,组织全员评测Sora。
不过很快,这种压力就已经转化为动力。不同在于,他如今已经不做基础模型产品,而变成了一个“造船的人”。
“在这个时刻,应该要更冒险、更激进。”这是刚刚创立“极致上下文”的廖谦,这段时间最大的感受。
这种笃定,源于廖谦在生数科技的经历。2024年,作为平台方,他内部搭建的TEP(Talent Exchange Platform)团队处理了上千单企业级AIGC需求,发现一个关键痛点:比起复杂的AI工具,他们更需要的是“告诉AI我要什么,直接给我成片”。
多模态领域的底层模型,依旧处在迅猛的变化中,但落地的鸿沟依旧存在。
“传统营销视频制作流程太繁琐、太昂贵。”廖谦解释,“其实,企业不想学习复杂工具,他们希望像找广告公司一样,只不过成本能降低十倍,速度能提升百倍。”
“极致上下文”正在打造的第一款产品,不是视频生成工具,而是一个营销Agent——前端通过多模态交互理解企业品牌调性和需求,后端整合各种AI模型能力,直接交付成品视频。
目前,极致上下文团队正在开发产品原型,后续计划将面向海外市场首先推出。
在廖谦看来,中国在AI视频领域有其独特优势:短视频生态领先全球1-2年,国内对视频生态的落地探索和理解更深。“国内这套的经验完全可以迁移到海外市场,无论是产品创新还是用户增长。”廖谦说,这也是他选择从全球市场切入,而不仅仅服务中国市场的原因。
在未来,廖谦希望把公司打造成一个新时代的“AI表达系统”——但在那之前,他希望先从垂类Agent做起,逐步拓展到更多领域——如教育、办公场景等。
为什么不做通用Agent?廖谦的回答很务实:“移动互联网早期,大家也觉得应该做Super app,但最后跑出来的是美团、滴滴这些垂直场景。AI Agent也一样,现在应该做这个时代该做的事——找到ROI最清晰的垂直场景。”他说。
![]()
廖谦
用户不需要AI工具,需要直接交付
《智能涌现》:你的经历很丰富,在腾讯、字节都做过,后来去了生数科技,整个过程是怎么思考的?
廖谦:我2015年硕士毕业于西安电子科技大学,学的是计算机视觉。毕业后在腾讯工作了六年,前两年在天美工作室做开发,2017年转到腾讯云做产品经理,主要负责AI人脸、人体识别落地相关的产品,比如智慧城市、智慧交通,从产品到具体落地都做。
在2019年我就开始接触AIGC了——那时候主要是基于GAN(对抗生成网络)的AI换脸技术。我服务过一个叫"她拍"的客户,他们用腾讯的换脸技术做了个小程序,产品逻辑有点像后来的妙鸭,但体验更好。
他们做了大量模板服务下沉女性用户,让用户可以穿婚纱、拍各种写真,上线十几天DAU就达到千万级别,进入了当时微信小程序排行榜TOP 10。也是这段经验,那让我真正体会到算法技术如何去引爆C端用户价值。
所以2021年,我想去做应用,就去了字节跳动的火山引擎,那时火山刚成立。我从零到一搭建了"智能创作云"团队,英文名就叫AIGC。
不过那个时期的AIGC和现在完全不同——我们做的是文字转视频,但不是用现在纯生成的方式,而是通过NLP理解语义后,匹配素材库里打好标签的图片视频,再拼接、加BGM和字幕生成视频。这个产品很快成为2022年火山引擎流量Top 1的产品,主要服务B端的营销内容创作。
《智能涌现》:后来,你去了剪映?
廖谦:对,2023年到2024年在剪映,我当时内部发起了一个零到一的新项目,专门针对海外商家,打造 AI 内容生产与分发平台——也就是后来上线的 Pippit。
简单来说,这个平台为海外商家提供从创意生成、视频制作到发布和数据反馈的全链路闭环。
之所以会发起这个项目,是因为之前在智能创作云的时候,我积累了非常多对国内生活服务和电商用户群体的认知。
我会发现,国内的AIGC产品在用户认知和产品成熟度上,其实是领先海外两到三年的。在智能创作云时期,我们做了很多类似的产品探索:从内容创意到一键制作——那个时候一键制作会用一些混剪的思路——然后到分发,你可以把抖音号绑上来,一次性把刚制作的一百个视频分发到一百个账号,然后再把数据反馈回来。
这套方法论其实是通用的,我们把国内的经验搬到海外去,效果很好,产出的视频在TikTok、INS上取得了不错的表现,现在Pippit月活也已经突破百万。
《智能涌现》:为什么在2024年8月那个时间节点,会选择去生数科技?
廖谦:Sora这个节点很关键。2024年初Sora刚发布的时候,只是一个demo,没有正式发布,大厂的跟进速度也没有那么快。
那会生数科技是当时国内最早跟进的,4月份就发布了对标Sora的demo,并在上半年发了Vidu第一个版本。我体验到了之后觉得能力很强,觉得这是一个特别好的机会,就加入了生数。
生数整个团队是清华系出身,技术实力非常强,但那会团队在产品和商业化上需要有人来配合。我刚好懂点技术、懂点产品、懂点研发,比较好地可以去配合他们。
在生数一年时间里,我们从0到1做到数千万的全球用户,今年能做到数千万美金的收入。
《智能涌现》:在生数期间,哪些事情对你后来创业的想法影响比较大?
廖谦:其实在生数的时候,会有很多甲方需求直接联系到我们,包括品牌TVC、企业宣传片,以及电商类商品视频,他们希望我们直接交付一条完整成片。
当时市面上的 AI 工具平台,比如 Vidu 和可灵,其实只能生成几秒的片段,真正交付成片,还存在很多后端环节。
为此,我内部组建了一支内容服务团队,叫TEP(Talent Exchange Platform),核心工作就是承接这些甲方定制需求,同时连接生态内的创作者,让他们用AI工具来输出成片。
我们处理了上千单这样的定制化需求,也让我产生了一个很强烈的感受:这里存在明显的创业机会。
许多用户并不愿意使用市面上的 AI 标品工具,原因一是这些工具无法与他们现有业务流程直接结合,二是对于业务人员来说,他们不是专业创作者,使用好AI工具还是有很大的难度。所以,他们更愿意为端到端、能够直接交付结果的解决方案付费,而且预算也相对充足。
《智能涌现》:技术到了可以创业的拐点,你的定义是什么?
廖谦:效果跟成本综合达到了一个可商业化的点。如果效果很好,但生成一个视频要一万块钱,那也不work。
多模态模型在一年的发展里,成本已经有了一定的下降。用AI生成视频相比传统制作,成本能降低到十分之一。
效果层面,Reasoning(推理)能力是一个关键的技术节点。直到2024年9月Chatgpt o1发布,我才觉得大模型落地到千行百业成了一个优化程度的问题,而不是行与不行的问题。
另一个拐点是多模态模型的一致性提升。之前AI视频模型商业化应用存在的瓶颈是一致性,比如产品视频,产品画面会变,这对品牌来说,是难以接受的。
原来要解决一致性问题非常复杂,需要在图片环节,比如大量的生图,或者大量的PS,这部分的工作量能占到70%,之后再图生视频。
在Vidu,我们去年11月份推出参考生视频(Reference to Video)1.5版本,能够将直接保持主体信息在视频中的稳定一致,但当时清晰度还不是很够,到上半年Vidu Q1 版本发出来时,画质提升了,一致性就已经非常好了。
包括前不久Google的Nano Banana爆火,可以直接灵活的编辑图片中的元素,包括保持图片中主体的连续一致。可以看到,一致性问题,不管是在生图片环节,还是在生视频环节,都有了很好的解决方案。
先从营销Agent做起,服务有表达诉求的人
《智能涌现》:为什么你的公司叫“极致上下文”?
廖谦:Context(上下文)在AI时代是非常重要的东西。从做产品角度,一个好的Agent 需要很好的理解用户的上下文。从企业管理角度,我也希望团队可以有更多的上下文的交流,按照我的说法是“More context, less control”。
《智能涌现》:这也是字节早期的价值观之一吧。
廖谦:我受腾讯跟字节的影响还是很深的。
《智能涌现》:极致上下文具体在做什么?
廖谦:我们想先做信息表达的生产端,先切生产力信息,为有生产力信息表达需求的人去做服务。用抽象的表达来说就是:有表达欲望和诉求的人,但很大程度上不具备表达的能力。
《智能涌现》:不具备表达能力是指什么?
廖谦:现在的信息表达形式很多,可以是文字、图像、视频。视频最难的,现在视频的表达方式,先是需求方表达需求,然后他要找一个制作方来做。
这个制作方有可能是个人,比如创作者、influencer,也或者是一个team,in-house的制作团队,或者外部的agency 团队。制作方要用非常多的工具——相机拍摄,用 PR、PS、剪映来剪辑,甚至后期配音工具等等。
我们的思路是,把这些工具和环节整合起来,直接为需求方生成最终成片,提供端到端的交付服务。换句话说,我们直接交付服务,不做工具。
《智能涌现》:你之前在生数做多模态的基模,为什么自己创业之后,不选择做通用的多模态Agent?
廖谦:在Google等巨头进入之前,回顾移动互联网的发展,可以发现一个规律:在技术刚冒头的时候,最正确的是,做这个时代应该要做的事情,而不是去做一些更超前的东西。
现在很多人会想做AI抖音,我也相信有那么一天,但不一定会在接下来的两三年内发生。就像PC互联网时期就有人想做推荐系统,但那是移动互联网成熟后才能做成的——所以,我觉得,创业首先要聚焦现在能落地的事。
《智能涌现》:你们会从什么垂直场景开始切?
廖谦:我们会先从“信息生产端”切入,去服务那些需要高效产出视频、图片等内容的用户,而不是做内容消费的平台。
然后从信息类型来看,像娱乐、社交类的短视频,这两块一定是大厂的主战场,创业公司进去很容易被卷死,而且这类内容大概率是免费的。
所以我们选择的是“生产力信息”——比如企业在营销场景下产生的内容,我们去服务营销人员、品牌方、企业内容团队这些有明确工作产出目标的人。
而且这类场景的ROI是可量化的,是能挣到钱的。我们的目标是把原有的制作成本降低十倍,同时让交付质量达到行业标准。
《智能涌现》:这个需求是很非标的,为什么选择营销这个方向?
廖谦:这个方向是有明确痛点的。比如说一个商家,以前做营销视频一般来说一支视频要几千块人民币或几百刀,甚至一些追求品牌化叙事的视频,成本要上万;第二是档期,他自己做不了,要找agency去做,agency不一定有空;第三是质量,agency也是有不同team,不同team的质量产出是不稳定的。
拿Sora举例,现在生成一个视频成本至少一两美元,可能是几十块人民币。我们能够把原有的成本降低十倍以上。现在我们要做的是把这个过程端到端地用AI完成,不再需要人工中介。
《智能涌现》:具体一点,你们通过什么流程来理解用户的需求?
廖谦:比如,一个商家找到我们,第一步是了解他们的产品和品牌。我会让大模型去搜集他们公开信息,比如官网、社交账号内容,确保对品牌有充分理解。同时,我也会研究他们所在行业,以及主要竞争对手。
在对用户和行业有了全面了解之后,再进入交互环节。这个交互应该是多模态的,不只是文字打字的方式。比如我们会问:“你喜欢什么样的画风?”如果用户回答“帅的”,这太抽象,我们会生成三张参考图让用户挑选。
视频初稿生成后,我们会让用户反馈修改信息,这时候的交互,应该是用户边看视频的同时,用语音或打字的方式告诉我。
通过这样的流程,我们先掌握产品信息、品牌信息和市场信息,再去了解用户的preference,从而帮助他们更好的进行完成信息表达,也就是输出视频。
《智能涌现》:在这个过程里,会有真人来对接需求吗?或者说,你们是希望把原来创作者的角色替代掉,这多大程度上是可行的?
廖谦:不会。在Vidu期间,验证了两个点。第一个点是AI制作的内容是可被消费的。
第二是,如果你要做KA的话,大客户一定要有真人。但如果做一些中小客户,他是能够接受AI来接管过程的,预算决定了预期。我们前期也做了大量的调研,他们对AI的接受程度还是OK的。
Sora2发布不要紧,“我们已经在造船了”
《智能涌现》:Sora App发布那一天,你在忙什么?
廖谦:在冒冷汗。那天是十月一号凌晨,我们在加班,因为我们初创公司刚开始嘛,看到发布之后整晚都没睡,一直在玩Sora。
刚开始看到Sora,我心里有点慌,心想他叙事怎么做得那么强?但后来我转变了思路,在想:我已经不在基模公司,没有正面竞争的压力。相反,我感到有点开心。
因为这意味着我在做应用这件事情会变得更加简单,然后我就变得很兴奋。
《智能涌现》:所以你们做的工作更多是造船,随着模型能力上升,你们的能力也会变强。
廖谦:对,Sora提供API就好了,Vidu、可灵等其他模型也会是我们的工具。
这件事情会极大推进所有基模厂商的进展——第一,刺激大家都往那方面去追,对AI应用来说是很好的;第二,在资本层面上,会让整个多模态的资本更加活跃。整个行业的发展会更加加速。
《智能涌现》:从你们的角度,你们对Sora的判断是?
廖谦:我们第二天本来要讨论十月的目标,我把那些会全部取消了,大家去玩、去深度评测。我们去评测它在叙事类内容、营销方向的表现,也会评测单镜头、长镜头等美学表现,一致性等等。
我们得出来的结论是:Sora很好的点在于叙事、音视频直出,包括一些娱乐类内容上,是明确领先的。
Sora在我看来不是一个单纯的模型,它其实是个Agent。
Sora称呼自己是AI System。你让它做一个视频,只需要说一句简单的Prompt:“我跟Sam Altman在YC的会议室里聊天”,他就会把会议室、布局,包括两个人在争执或者怎么样,讲一个完整的小故事。这个东西视频模型做不了,它一定是用了语言模型前置。
但他在做一些长叙事视频、或者一些营销视频之类的,更生产级的领域,其实还有很多问题没有被解决,它的一致性解决得并不好。
音视频同出也是非常厉害的。不过2024年我在Vidu的时候,包括国内很多公司都很早投入到这个方向了,最近Google其实也放出来Veo 3,所以这个能力在预期范围内。
包括类似Sora Cameo的交互设计,我们去年在Vidu上就探索过同样的交互机制,只不过我们面向的是更泛化创作场景,比如广告、影视内容制作,用来构建资产的概念,用户可以创建人物角色、道具、场景等元素,并在创作时一键@融合到一个视频里。我一直认为,这种方式会成为未来内容创作的主流交互之一。
《智能涌现》:从哪些细节能看出Sora比现有产品强?你们猜他们做了什么,才能让产品能力这么强?
廖谦:Sora第一是叙事有超出预期;第二是它有镜头语言了,但不太像电影的镜头语言,反而是社交媒体化的镜头语言——频繁的切镜、包括一些夸张的表情等等。
如果Sora App去做一个短剧,表现力非常好,各个镜头切换很自然。这跟它的数据相关,可以看出他喂了大量社交娱乐上的数据,但你会发现Sora它在美学角度,其实是比不上一些其他产品的。
《智能涌现》:Sora App发布之后,有直接影响你们的业务目标吗?
廖谦:有,就是我们可以更加focus在更重要的事情上。Sora出来对我们是大的利好,因为我们用工具做内容的速度更快、门槛更低。
《智能涌现》:你刚刚也提到,Sora会极大刺激所有大厂的进程。
廖谦:第一是Sora免费,大家都知道;第二是做产品的时候,有一个小细节是,登录Sora App的时候,OpenAI提供的第一个登录方式是GPT账号登录,然后才是others。
正常来说,我们去设计一个产品,是非常care账号体系的,会把GPT、Google、Apple甚至Facebook都铺出来,方便用户登录。
就从这个设计来看,OpenAI的野心是更大的,它绝对不甘心就是做一个只有一个输入框的ChatGPT跟卖API的公司,而是希望打造基于GPT的生态。
所有的大厂都要去做防守。就是他们会把核心精力放在主要赛道上,因为他们会发现OpenAI真的会蚕食他们的主要赛道。
微软的前CEO萨迪亚,在ChatGPT推浏览器插件的时候说了一句话:“搜索的毛利被永久地降低了”。现在用Google搜一个东西,最上面的输入框其实是大语言模型给你的一些结论,那就意味着每次搜索都消耗了额外的算力。
Sora App出来之后,AI社交、AI娱乐的毛利也同样被永久地降低了。你会发现新时代的社交产品、娱乐产品一定会有类似这种互动的玩法,这个成本是很高的。哪怕它降到了一次交互一毛钱,比搜索贵很多,也要做。
《智能涌现》:你意思是以后我们刷的内容,AI化的进展会加快很多。
廖谦:对。
《智能涌现》:创业公司的生态位在哪里?
廖谦:作为创业公司,你一定要有一个点,足够硬。足够硬了之后,你的用户就会开始“多持”。用户会买可灵、会买即梦,但也会买Vidu,那就OK了。
《智能涌现》:大语言模型现在的技术路线,可以说已经收敛了。多模态的发展路径,未来会跟大语言模型有一样吗?
廖谦:这不太能直接类比。
多模态其实也分三种类别。第一种叫多模态理解,理解你输入的图片跟视频是什么,这更偏大语言模型的范畴;
第二个叫多模态生成,生成图片、生成视频,是现在Vidu、可灵、Sora在干的事情,它不具备智能,只能做渲染;
第三块类似于李飞飞在做的World Model,是大语言模型加多模态生成结合的东西。
多模态跟大语言模型很不一样的点是:大语言模型的Scaling Law是真的被验证了,你的参数量越大越牛逼。但是在多模态上,如果数据做得不够好,参数量盲目扩大,其实是不work的。
在多模态领域,数据的重要性非常明显。哪怕你的模型不够大,但你的数据做得足够好,你的效果也可能很好。
《智能涌现》:国内在多模态领域会领先多少?
廖谦:至少有一段时间,中国的视频生态整体是比海外领先一到两年,拿可灵作为最主要代表的话。不过在Google Veo3跟Sora出来之后,我觉得国内又有一定差距了。
从营销Agent,到新时代的AI表达系统
《智能涌现》:你刚刚说,要做这个时代应该要做的事。营销Agent是你们想先做的事,未来呢?
廖谦:大的目标上,我们希望做好未来的信息表达系统。
我认为信息的表达其实经历了三个时代的变化。
最早搜索时代,你主动去框里找内容;推荐时代,系统把预制好的内容(文字、图片)推送给你,这催生了知乎、抖音。
而现在是生成时代。AI读取海量信息后,进行聚合与理解,再以你最想要的方式(文字、图片、视频)重新生成并表达给你。
这彻底改变了游戏规则:推荐时代的“标题党”会失效,因为AI看重的是内容实质,而非点击率;同时,这也能实现真正的个性化,就像教育里的因材施教——知识不变,但AI能为每个人生成最适合他的、可视化的专属教材。
Sora的出现,就是把“信息可视化表达”这件事极大地向前推进了一步。这种端到端的智能生成,是人力无法完成的,也是这个时代全新的命题。
《智能涌现》:未来,你们还是往通用Agent拓展吗?还是拓向其他的垂类?
廖谦:我的观点是先做垂类,通用的Agent不是当下最好的切入点。
未来的竞争一定是按行业或场景划分的垂类竞争。我们想先服务好一个垂类,未来的拓展方向也是做好几个不同的垂类 Agent,而不是一个大而全的通用 Agent。
《智能涌现》:为什么觉得通用Agent不是最好的切入点?
廖谦:通用 Agent 很难去定义一个任务的好坏和标准。
做好用户理解和交互非常关键。不同垂类场景的交互形态、需要搜集的信息、沉淀的行业知识(know-how)都是完全不同的。通用 Agent 会让上下文变得复杂,无法在特定领域做深。
《智能涌现》:所以你们会按效果付费?
廖谦:“效果”(比如阅读量、转化率)有太多我们无法控制的外部因素。一个视频做得再好,如果产品本身定价两百万,销量也一定不好,这个责任我们无法承担。
我们说的“结果”,是指我们承诺交付一个达到行业特定质量标准的、内容本身合格的交付物。这个质量水平和价格是明确的。
我们保证交付这个“结果”,但不保证它发布后带来的“效果”。这样用户的体验是清晰、透明的,他明确知道花一笔钱能得到什么。
《智能涌现》:除了营销,你们这个表达系统,未来还可能会有什么样的场景,举个例子?
廖谦:比如你是记者,每天需要追踪上百个信息源,包括公众号、官网之类的。
以前可能你看推荐流,RSS工具抓取,这是被动接收别人写好的原生内容。
Agent时代是生成: 你只需输入一句简单的需求,告诉 AI 你关注什么,它会主动理解、抓取、聚合所有信息,然后为你动态生成一份今天的专属情报——甚至根据你所在的场合,比如你在办公室,它就生成图文报告;如果你在路上,它就生成一段播客让你听。
它不再是推送“原生内容”,而是为你生成“全新内容”,这才是信息表达的未来。
《智能涌现》:对做产品的人来说,预测模型发展曲线很重要。怎么保证不会被基模吞噬?你看现在Sora出来之后,很多AI生视频的工具,也被吞没了。
廖谦:大家都想追求确定性,无论是投资还是创业,但这是不现实的。
现在多模态还是在很卷的状态。我和这个领域很多顶尖的技术从业者聊,其实他们在训练模型的时候,也是隐隐约约觉得这件事情Work,但到底是100分还是60分,也没有很强的把握,所以才要不断做实验。
做产品也是一样的。与其焦虑地去预测,不如建立一套快速反应的机制。我一直在跟团队强调要快,基模都是两三个月迭代一次,而我们的产品必须每周就迭代一次。
很多创业者希望能完全预判模型三个月后变成什么样,然后规划产品,但这是一种追求确定性的脆弱表现。
《智能涌现》:你算是见证了AIGC领域从0到1的人,这几年你对大模型的技术发展,或者对AI这件事,有什么核心认知上的变化吗?
廖谦:要更冒险、更激进。
在大厂的时候,我经过了很多系统性训练,让你把事儿做对,但在创业公司,要更有大胆的想法。
昨天,就在这个会议室里面,我和团队在讨论交互怎么做的时候,研发同学就觉得这个交互太超前、不一定能实现好之类的。
然后我就跟他讲了,核心意思是,我们不是在做实验室研究,创业公司不冒险,那还创业干嘛?
创业就是要去做那些还没有被验证过的可能性。
封面来源|企业官方
本文来自微信公众号“智能涌现”,作者:邓咏仪,36氪经授权发布。





京公网安备 11011402013531号