![]()
用 AI coding,最绝望的事情是什么?
如果只给世超一票,我会投给,停在一半。
干了半小时,项目刚起好框架,它停在一半。
弹出十个细节 bug,修了三个,它停在一半。
程序动了上百行,测试没跑完,它停在一半。
![]()
而面对这些半成品,无能的人类,却连下一句 prompt 都憋不出来,只会搁那 “ 继续继续,你改了啥,回滚回滚,让我们说中文。”
那么问题来了,到底有没有什么办法,能把人类彻底清出 AI 的工作流,让它自己从头干到尾,别再难为还不如豆包聪明的我了?
有的兄弟,有的。最近,小龙虾的创始人 Peter Steinberger 提出了一个新概念,叫 loop engineering。
这玩意儿简单来说,就是人提前给 AI 写一份无脑执行说明书,之后啥也不用管,AI 自己来循环工作。
只不过这份说明书动辄几十页 pdf,里面包含了 AI 实操的各种细节要求,堪称 prompt engineering 的 plus ultra pro max 版。
![]()
从写代码,到测试,查 bug,修复,再测试,再修复。。。总之,什么时候结束条件达成了,比如 “ 所有测试通过,benchmark 提升 xx%,循环 20 回合 ”,AI 才能停止工作。
然而,作为又一横空出世的 AI 黑话,世超看到,大部分人其实对 loop engineering 是持怀疑态度的。
有人觉得它看似简单,实际操作难如登天;有人担心燃烧的 token,试错一次原地破产;还有人说这不过是新瓶装旧酒,这些概念以前软件开发早有了。
![]()
但光这么说大伙儿可能觉得还是太抽象。所以,世超干脆搭了一个简单的 loop engineering 项目,给各位差友看看实验过程,也顺便验证一下这到底是新玩法,还是真炒作。
全流程体验下来,世超感觉,全自动化解放人类双手的想法是好的,但真用起来,没那么轻松流畅。
咱们这回实验的目标,是通过 loop engineering,让 AI 用尽各种方法,调教 stable diffusion v1.5 模型的输出,让它的图片生成更稳定,更好看。
各位差友可能对 stable diffusion 有点印象,但不多。作为图片生成模型的元老级存在,它早期的效果放现在 GPT、midjourney 的面前,可以说是完全依托,差到有点诡异吓人。
![]()
可正是这种又差又不稳定的表现,才让它有很大的优化空间。
即使不动基础模型,只是通过提示词修改,模型参数修改(推理步数,scheduler,seed 等),局部重画等等各种手段,stable diffusion 都有可能抽出更好看的图片。
像是下面这个例子,润一润提示词,效果完全不一样。
这要是用上 loop engineering,自动化尝试更多的方法和案例,岂不是更加未来可期?
![]()
为了让AI好好干活,工具方面,世超精挑细选了开源编程 Agent OpenCode,接上 DeepSeek V4 Pro,让它们来修改代码。
测试部分,我们引入第三方模型,让 Qwen 3.5 Plus 来评价最终生成的图片质量,保证公平。
![]()
接下来开搓 AI 说明书,几十页的文档,和 GPT 老师三轮对话,也是手到擒来。
整个过程简单来说,就是 DeepSeek 改模型,生图 -> Qwen 锐评 -> DeepSeek 根据评语继续改模型,继续调。
![]()
一切准备就绪,世超亲自从头到尾过了一遍,自我感觉十分良好,放心地按下了启动键。
然而,现实却没想象的那么顺利。。。
给大伙儿看看最终实验结果之一,同样的提示词下,感觉 loop 后还远不如 loop 前。
![]()
在反复调整实验的过程中,世超发现,loop engineering 的坑确实不少。
首先,写一份合理的说明书,真的很难。
人能处理的信息带宽有限,几十页的说明书文档,有时候调优手段设置不合理,有时候 loop 终止条件没想到。
可任何一个细节没处理好,都可能导致大量时间和 token 的浪费。loop 半天一查报告,欸嘿,开始就错了。
而即使你反复优化说明书,修改实验,折腾一通下来,可能只是浪费了钱和时间。
世超第一次实验跑了一小时,第二次实验跑了五个小时,结果都很一般,没有达到预期的优化图片效果。
![]()
其次,没有中途调整机会的 loop engineering,很容易越走越偏。
传统的人机 prompt 回合制虽然烦,至少人还能一轮一轮盯着看。图崩了,可能是某个参数没调好,手崩了,就改改 prompt,主打一个对症下药。
虽然写代码人类已经不行了,但拼经验,AI 还是不如人。
可 loop engineering 不一样,它的核心就是提前把规则写死,然后让 AI 在规则里自己循环。
所以,一旦中间哪里出了岔子,比如评价模型不大聪明,把 “ 画面不够精致 ” 当成主要问题,DeepSeek 就可能一轮轮加柔光,加细节,加色彩,最后反而人物失真,人类没有任何插手纠错的机会。
红线左侧为 loop 前样片,右侧为 loop 20 轮后样片
![]()
最后,并不是所有类型的项目都适合 loop engineering。
举个最简单的例子,如果在上面的实验中,我们每次生成一张图片要耗时半小时,用 loop 来迭代拼运气,很显然是不划算的。
所以一般来说,loop engineering 只适合那些,测试目标明确,迭代验证迅速,错误代价低,上下文不太复杂的任务,非常局限。
但你要说,这么多大佬都在吹的 loop engineering,难道就没有什么优点吗?
我只能说,按下启动键的那一刻真的很爽。
![]()
带着一种盲目的信任,把所有压力抛给 AI,不用盯着干活,不用动脑子,坐等结果和报告,这绝对是每一个开发者的梦想。
但这玩意儿实在太不可控,如果你有无限 token,无限算力,可以同时开一堆炉子赛博炼丹,那也许有机会短时间炼出一个好结果。
可对于普通人来说,世超建议,还是不要轻易踏进这个 token 的火葬场了。
对了,如果你是AI、互联网行业的从业者,希望能和业内差友一起讨论新鲜的内部行业资讯、聊聊热乎的行业八卦、找靠谱的内推丢丢简历,或者是分享有价值的合作需求,那就识别下方的二维码来申请加入我们的行业群吧~
这里头都是有意思的业内差友,没事来一起摸摸鱼也是极好的!(狗头
撰文:莫莫莫甜甜
编辑:江江 & 面线
美编:焕妍
图片、资料
https://addyosmani.com/blog/loop-engineering/
https://learnprompting.org/docs/image_prompting/fix_deformed_generations?srsltid=AfmBOooFXWJ64UP3M67iHWe6cwOpuclQoV6JVZ1pNAHJbqUSLr66oTcA
小红书、莫莫实测
![]()





京公网安备 11011402013531号