
大伙儿有没有发现,现在不管哪家公司发新模型,底下提问最常见的就一种类型:“这事儿到底能不能干?”好像跑分越高越强的思维,已经过时了。
![]()
但我说实话,这群 AI 和机器人公司全学坏了,就爱搁春节亮相,搞得世超和同事连春晚都看不进去了。
这不,就在春节放假前,咱大伙最爱用的豆包,先是丢了一个王炸视频模型 Seedance 2.0,接着又在春节来临之际推出了豆包大模型 2.0(Doubao-Seed-2.0)系列。
![]()
你别说,这发得真是时候。。世超本来说赶在节前水一篇稿子放假,结果一上手,发现稿子写不完了。
因为这小子,干起活来还真有点东西。。能干的活,两三天根本研究不明白,于是整个春节假期,我基本全耗在研究怎么压榨它的劳动力上了。
现在,这套“压榨流程”总算完工了,今天就来给大伙儿交个作业。咱们不整虚的,一切全从哥们的实际需求出发。
当然了,例行公事的成绩单咱还是得扫一眼。
这次字节的“Seed”家族更新得还蛮全面,除了核心的豆包 Seed 2.0,还有主攻视频生成的 Seedance 2.0,以及搞定图像的 Seedream 5.0 Lite,在火山引擎上都能试用,而且Seed 2.0系列的API已全部上线。
![]()
就拿核心的 2.0 Pro 来说,空间理解、运动感知和视频理解这几个科目,直接跑赢了 Gemini 3 Pro。
![]()
数学和推理分数拿下了 IMO 等硬核竞赛的金牌水平,全球最高,信息搜索和工具调用能力也拉升了一大截,只输一手 GPT 5.2。
![]()
![]()
但说句实话,跑分这东西就跟简历一样。纸面上看着好看,真坐到工位上顶不顶用,那是另外一码事。那咱不说废话,接下来直接上强度,看看它到底能做些啥。
首先,这玩意的 Agent 能力非常强,也就是抄家伙干活的能力。
众所周知,差评编辑部是一个多模态的团伙,文字,图片,视频,样样精通。。所以我们每次用 AI 都挺麻烦的,各种 AI 工具擅长的东西都不一样,有的作图强,有的视频强,我们需要把窗口切来切去,文件传来传去,很影响效率。
![]()
但在春节假期期间,我用seed-2.0-pro 再配合 seedance、seedream,搭建了一个多模态的 AI 助手,并把它连接到了飞书。
现在,我只需要把任何格式的东西用飞书发给它,再给它提要求,它就能按要求和文件类型,处理我发过去的文件。
具体实现方法,简单来说,就是本地部署一个 OpenClaw,然后给它接上火山引擎上 Seed-2.0-Pro 的 API,再在飞书开发者后台创建一个机器人,接入我们的 OpenClaw,最后再在飞书给它发消息,让它自己配置个 Skill ,用 Skill能自行调用图片、视频生成能力即可。
只要机器人配置好,咱什么东西都能在里面搓了。比如,你们刚刚看到的切屏表情包,就是我用这个神秘妙妙工具做的。
![]()
或者,咱可以对已生成的图片进行修改,也就一句话的事儿。比如我可以给它一张过年期间的全家福,让它改得喜庆一点。
![]()
结果。。不对,居然翻车了??不能说是一模一样,只能说是毫无血缘关系。
![]()
按说豆包的 seedream 4.5,是很强的生图模型了,难道其中还有什么玄机。。于是我打算盘问一下它的工作流程。
![]()
然后它告诉我没把原图传过去,原因是“图生图传base64太大了调用失败”。这我哪听得懂?直接让它自己帮我解决。
结果,它一通操作,检查问题-提出方案-解决问题,一套流程下来,还真给我调试好了。。
![]()
这番交互下来,我还是挺满意的。因为一个模型犯错其实是不可避免的,这和用户的提示词、当前的上下文都脱不开关系,而真正重要的是它知错就改的能力,在你需求描述越来越精确后,它能精准捕捉需求,并快速解决错误。
当然除了图片,视频也是可以在同一个对话框生成的。比如我可以发个图片过去,让它转成视频。
![]()
这是成品:
如果你需要,还可以一键转成 GIF,它自己调用工具生成:
![]()
所以这个机器人,现在不仅能改文案,还能帮美编作图,给后期配素材,还能给编辑配 GIF 图,只能说爽飞了啊,谁还分得清机器人和同事啊?

好了,那如果你需求没那么垂直,只想体验跟 Seed 2.0 对话怎么办?很简单,直接上火山引擎,在模型广场里找到 Doubao-Seed-2.0 全系列,点击立即体验就能用。
![]()
对了,刚咱跑分里提到一个 BrowseComp,就是考察大模型搜索犄角旮旯里信息的能力的。刚好世超也蛮需要这个功能的,咱再来试试。
刚好世超最近在研究数学,发现一个很神奇的问题,为什么圆周率π(约 3.14)的平方和g(重力加速度,约 9.8)的值那么近似?我研究了很大篇幅的资料,也没找到令我满意的答案。
于是我把我自己的想法(约 3000 字)一股脑发给了它,让它通过手里的知识库和互联网工具一一解答。
![]()
答案真是夯爆了啊,不仅解答了我的疑问,还补充了说明了彩蛋和冷知识,其实就是人类定义的问题,完全不是什么巧合。
![]()
有意思的是,我让同样擅长搜索的 Claude Opus 4.6 做了一遍这个题,然后把Seed 2.0 pro答案发了过去,它直接自愧不如了。
![]()
对了,不仅能处理文本,Seed 2.0 的多模态能力也是一等一的强。比方说,视频理解这一项,昔日王者是 Gemini 3 pro,现在 Seed 2.0 pro 也能打一打了。
比如我直接传了一个往日最佳视频过去,让 AI 进行笑点解析。
说的确实不赖,每个动作它都看清了,还能看懂乌鸦的神态。甚至能预测接下来的剧情走向。
![]()
这是 Gemini 的回答,感觉也大差不差了。
![]()
而世超觉得这个是真实用。现在视频的缺点,就是你第一眼不知道它的重点是啥,是夯还是拉你得看完才知道,而现在你能直接下载视频发给豆包,如果视频又臭又长,你也不用浪费你宝贵的时间了。
那,还有其他硬核项目吗,比如,写代码?
这次,字节跟 OpenAI 想到一块儿去了,端出了专精编程的 Doubao-Seed-2.0-Code 模型。 可能他们也统一思路了,想让 AI 成为真正的生产力,就必须专门出一个垂直模型,死磕写代码。
我这不会写代码的也试了试,我拿它撸了个手势控制的飞机小游戏,我只需要在对话框里输入几句大白话需求,Seed 2.0 Code 就像接管了我的键盘一样,唰唰把复杂的摄像头捕捉和运动计算逻辑全写完了。
![]()
现在我只要坐在屏幕前,对着摄像头挥挥手,就能直接操纵游戏里的飞机闪转腾挪。一个零基础的人在五分钟内搞定这种交互,只能说非常好用了。
看到这里,你可能以为,它也就搞搞自媒体、写点小游戏了,还有别的活吗?
![]()
有的,这模型现在连画复杂的 CAD 图纸,都能硬啃下来。而且,它干这活儿的方式,也强到离谱。
比如操作 FreeCAD 建模,它不是给你丢一堆代码给你,而是直接夺舍你的鼠标,自己在屏幕上去找菜单、点图标。
最神的是,中间它操作太快没点准,不小心点错工具弹了个报错框。
结果这货在后台触发了一段“自我反思”:“我的,点错了,不小心点到了 Pocket 工具,等我关了重来。。”
![]()
这一大圈折腾下来,世超最大的感受就是:豆包这次是真的在往“六边形战士”的方向死磕。
放在以前,大伙儿一聊起多模态体验最牛的,第一反应就只有 Gemini,综合能力强到断层,你放眼望去,甚至连个能稍微抗衡一下的老二都找不出来。
但今天再看豆包,不管是文字、图片还是视频全都能接得住,理解能力也直逼第一梯队。那肉眼可见的差距,正在被进化的速度慢慢填平。
而且最关键的是,它是真会自己动手啊。遇到盲区会搜资料,需要工具会抄家伙,甚至连 CAD 都能硬啃。这就导致在跟它一来一回的拉扯中,你会感觉它越来越像一个坐在你隔壁工位、随叫随到的同事了。
回过头来看看这波 AI 浪潮,从最开始只会陪人聊天的文字窗口,到后来能看图、能听声音,再到现在直接能长出了手和脚,这种从“对话工具”向“干活帮手”的跨越,意味着硅基生命替碳基生命打黑工的齿轮,已经彻彻底底转动起来了。
往后看,各家搞军备竞赛,光靠在 PPT 上吹参数已经唬不住人了。大家真正在意的,到底是谁能替大伙儿扛下那些让人头秃的脏活累活。
所以咱能做的,也只有多配合它踏踏实实干活,继续等它进化完全的那天吧。
撰文:不咕
编辑:江江
美编:素描
图片、资料来源:
火山引擎,视频来源小红书@猫本momo
![]()
![]()





京公网安备 11011402013531号