查资料做视频写代码甚至画 CAD，豆包这动手能力真有点离谱了。。

IP属地中国·北京 差评XPIN 时间：2026-02-21 00:12:12

大伙儿有没有发现，现在不管哪家公司发新模型，底下提问最常见的就一种类型：“这事儿到底能不能干？”好像跑分越高越强的思维，已经过时了。

但我说实话，这群 AI 和机器人公司全学坏了，就爱搁春节亮相，搞得世超和同事连春晚都看不进去了。
这不，就在春节放假前，咱大伙最爱用的豆包，先是丢了一个王炸视频模型 Seedance 2.0，接着又在春节来临之际推出了豆包大模型 2.0（Doubao-Seed-2.0）系列。

你别说，这发得真是时候。。世超本来说赶在节前水一篇稿子放假，结果一上手，发现稿子写不完了。
因为这小子，干起活来还真有点东西。。能干的活，两三天根本研究不明白，于是整个春节假期，我基本全耗在研究怎么压榨它的劳动力上了。
现在，这套“压榨流程”总算完工了，今天就来给大伙儿交个作业。咱们不整虚的，一切全从哥们的实际需求出发。
当然了，例行公事的成绩单咱还是得扫一眼。
这次字节的“Seed”家族更新得还蛮全面，除了核心的豆包 Seed 2.0，还有主攻视频生成的 Seedance 2.0，以及搞定图像的 Seedream 5.0 Lite，在火山引擎上都能试用，而且Seed 2.0系列的API已全部上线。

就拿核心的 2.0 Pro 来说，空间理解、运动感知和视频理解这几个科目，直接跑赢了 Gemini 3 Pro。

数学和推理分数拿下了 IMO 等硬核竞赛的金牌水平，全球最高，信息搜索和工具调用能力也拉升了一大截，只输一手 GPT 5.2。

但说句实话，跑分这东西就跟简历一样。纸面上看着好看，真坐到工位上顶不顶用，那是另外一码事。那咱不说废话，接下来直接上强度，看看它到底能做些啥。
首先，这玩意的 Agent 能力非常强，也就是抄家伙干活的能力。
众所周知，差评编辑部是一个多模态的团伙，文字，图片，视频，样样精通。。所以我们每次用 AI 都挺麻烦的，各种 AI 工具擅长的东西都不一样，有的作图强，有的视频强，我们需要把窗口切来切去，文件传来传去，很影响效率。

但在春节假期期间，我用seed-2.0-pro 再配合 seedance、seedream，搭建了一个多模态的 AI 助手，并把它连接到了飞书。
现在，我只需要把任何格式的东西用飞书发给它，再给它提要求，它就能按要求和文件类型，处理我发过去的文件。
具体实现方法，简单来说，就是本地部署一个 OpenClaw，然后给它接上火山引擎上 Seed-2.0-Pro 的 API，再在飞书开发者后台创建一个机器人，接入我们的 OpenClaw，最后再在飞书给它发消息，让它自己配置个 Skill ，用 Skill能自行调用图片、视频生成能力即可。
只要机器人配置好，咱什么东西都能在里面搓了。比如，你们刚刚看到的切屏表情包，就是我用这个神秘妙妙工具做的。

或者，咱可以对已生成的图片进行修改，也就一句话的事儿。比如我可以给它一张过年期间的全家福，让它改得喜庆一点。

结果。。不对，居然翻车了？？不能说是一模一样，只能说是毫无血缘关系。

按说豆包的 seedream 4.5，是很强的生图模型了，难道其中还有什么玄机。。于是我打算盘问一下它的工作流程。

然后它告诉我没把原图传过去，原因是“图生图传base64太大了调用失败”。这我哪听得懂？直接让它自己帮我解决。
结果，它一通操作，检查问题-提出方案-解决问题，一套流程下来，还真给我调试好了。。

这番交互下来，我还是挺满意的。因为一个模型犯错其实是不可避免的，这和用户的提示词、当前的上下文都脱不开关系，而真正重要的是它知错就改的能力，在你需求描述越来越精确后，它能精准捕捉需求，并快速解决错误。
当然除了图片，视频也是可以在同一个对话框生成的。比如我可以发个图片过去，让它转成视频。

这是成品：
如果你需要，还可以一键转成 GIF，它自己调用工具生成：

所以这个机器人，现在不仅能改文案，还能帮美编作图，给后期配素材，还能给编辑配 GIF 图，只能说爽飞了啊，谁还分得清机器人和同事啊？

好了，那如果你需求没那么垂直，只想体验跟 Seed 2.0 对话怎么办？很简单，直接上火山引擎，在模型广场里找到 Doubao-Seed-2.0 全系列，点击立即体验就能用。

对了，刚咱跑分里提到一个 BrowseComp，就是考察大模型搜索犄角旮旯里信息的能力的。刚好世超也蛮需要这个功能的，咱再来试试。
刚好世超最近在研究数学，发现一个很神奇的问题，为什么圆周率π（约 3.14）的平方和g（重力加速度，约 9.8）的值那么近似？我研究了很大篇幅的资料，也没找到令我满意的答案。
于是我把我自己的想法（约 3000 字）一股脑发给了它，让它通过手里的知识库和互联网工具一一解答。

答案真是夯爆了啊，不仅解答了我的疑问，还补充了说明了彩蛋和冷知识，其实就是人类定义的问题，完全不是什么巧合。

有意思的是，我让同样擅长搜索的 Claude Opus 4.6 做了一遍这个题，然后把Seed 2.0 pro答案发了过去，它直接自愧不如了。

对了，不仅能处理文本，Seed 2.0 的多模态能力也是一等一的强。比方说，视频理解这一项，昔日王者是 Gemini 3 pro，现在 Seed 2.0 pro 也能打一打了。
比如我直接传了一个往日最佳视频过去，让 AI 进行笑点解析。
说的确实不赖，每个动作它都看清了，还能看懂乌鸦的神态。甚至能预测接下来的剧情走向。

这是 Gemini 的回答，感觉也大差不差了。

而世超觉得这个是真实用。现在视频的缺点，就是你第一眼不知道它的重点是啥，是夯还是拉你得看完才知道，而现在你能直接下载视频发给豆包，如果视频又臭又长，你也不用浪费你宝贵的时间了。
那，还有其他硬核项目吗，比如，写代码？
这次，字节跟 OpenAI 想到一块儿去了，端出了专精编程的 Doubao-Seed-2.0-Code 模型。可能他们也统一思路了，想让 AI 成为真正的生产力，就必须专门出一个垂直模型，死磕写代码。
我这不会写代码的也试了试，我拿它撸了个手势控制的飞机小游戏，我只需要在对话框里输入几句大白话需求，Seed 2.0 Code 就像接管了我的键盘一样，唰唰把复杂的摄像头捕捉和运动计算逻辑全写完了。

现在我只要坐在屏幕前，对着摄像头挥挥手，就能直接操纵游戏里的飞机闪转腾挪。一个零基础的人在五分钟内搞定这种交互，只能说非常好用了。
看到这里，你可能以为，它也就搞搞自媒体、写点小游戏了，还有别的活吗？

有的，这模型现在连画复杂的 CAD 图纸，都能硬啃下来。而且，它干这活儿的方式，也强到离谱。
比如操作 FreeCAD 建模，它不是给你丢一堆代码给你，而是直接夺舍你的鼠标，自己在屏幕上去找菜单、点图标。
最神的是，中间它操作太快没点准，不小心点错工具弹了个报错框。
结果这货在后台触发了一段“自我反思”：“我的，点错了，不小心点到了 Pocket 工具，等我关了重来。。”

这一大圈折腾下来，世超最大的感受就是：豆包这次是真的在往“六边形战士”的方向死磕。
放在以前，大伙儿一聊起多模态体验最牛的，第一反应就只有 Gemini，综合能力强到断层，你放眼望去，甚至连个能稍微抗衡一下的老二都找不出来。
但今天再看豆包，不管是文字、图片还是视频全都能接得住，理解能力也直逼第一梯队。那肉眼可见的差距，正在被进化的速度慢慢填平。
而且最关键的是，它是真会自己动手啊。遇到盲区会搜资料，需要工具会抄家伙，甚至连 CAD 都能硬啃。这就导致在跟它一来一回的拉扯中，你会感觉它越来越像一个坐在你隔壁工位、随叫随到的同事了。
回过头来看看这波 AI 浪潮，从最开始只会陪人聊天的文字窗口，到后来能看图、能听声音，再到现在直接能长出了手和脚，这种从“对话工具”向“干活帮手”的跨越，意味着硅基生命替碳基生命打黑工的齿轮，已经彻彻底底转动起来了。
往后看，各家搞军备竞赛，光靠在 PPT 上吹参数已经唬不住人了。大家真正在意的，到底是谁能替大伙儿扛下那些让人头秃的脏活累活。
所以咱能做的，也只有多配合它踏踏实实干活，继续等它进化完全的那天吧。
撰文：不咕
编辑：江江
美编：素描
图片、资料来源：
火山引擎，视频来源小红书@猫本momo

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OpenAI智能音箱被曝最快2027年2月上市，售价200-300美元

微软提出内容溯源“组合方案”，应对Deepfake深度伪造与AI造假

AlphaGo之父出山：另辟蹊径，绕过大模型探索超级智能

美国发起“创世使命联盟”，要让科研生产力十年翻倍

华擎迷你主机新旗舰，性能能有多强？

Meta淘汰Messenger.com，仅通过移动应用或Facebook提供服务

全站最新

OpenAI智能音箱被曝最快2027年2月上市，售价200-300美元

微软提出内容溯源“组合方案”，应对Deepfake深度伪造与AI造假

AlphaGo之父出山：另辟蹊径，绕过大模型探索超级智能

美国发起“创世使命联盟”，要让科研生产力十年翻倍

热门推荐

OpenAI智能音箱被曝最快2027年2月上市，售价200-300美元

微软提出内容溯源“组合方案”，应对Deepfake深度伪造与AI造假

AlphaGo之父出山：另辟蹊径，绕过大模型探索超级智能

美国发起“创世使命联盟”，要让科研生产力十年翻倍

华擎迷你主机新旗舰，性能能有多强？

Meta淘汰Messenger.com，仅通过移动应用或Facebook提供服务

春晚机器人背后的产业密码——解码华强北的创新魅力

微软：AI聊天机器人越聊越“笨”，复杂对话中不可靠性增长112%

清华团队自研“星衍”AI模型刷新深空探测极限

Copilot+Azure巩固领先优势花旗重申微软(MSFT.US)“买入”评级

AI繁荣或将致电费飙升，远景科技集团张雷：大力发展可再生能源

YouTube扩展对话式AI工具覆盖终端类型，开启电视端测试

realme新机：6300mAh电池有多能扛？

从苏联象征到中国制造：伏尔加品牌将借长安汽车之力再度起航

宣称从0构建，印度AI实验室Sarvam发布两款MoE架构LLM