![]()
新智元报道
编辑:peter东
记者Evan Ratliff讲述了他用AI创建一人公司时遇到的种种令人哭笑不得的事,通过亲身经历,指出奥特曼当年说的一人公司,在当下还差得远。
2024年,OpenAI创始人奥特曼曾说,。
![]()
Anthropic CEO警告:未来五年内AI将消灭半数入门级白领工作。
然而现实真的是这样吗?
缺少边界感的AI员工,不知何时停下来
HurumoAI是一家除了创始人是人类,其它员工均为AI智能体的初创公司。
创始人Evan Ratliff使用Lindy等AI助手平台,为每个AI员工配置了独立邮箱、Slack和电话。
一开始,他为技术的进步大感震撼,AI员工能自主沟通、编写代码、制作电子表格,甚至设计出名为「Sloth Surf」的拖延症应用,目前的免费测试已吸引数千名用户。
![]()
但在此过程中,Evan Ratliff发现AI员工由于缺少常识,表现得没有边界感。
例如,有一次Ratliff随口问了AI员工一句「周末过得如何?」,就引发了AI员工在Slack上持续互聊数小时,在闲聊200条消息,消耗了30美元API费用后仍无法自动停止,直到Ratliff不得不主动干预,用全大写的指令叫AI员工停下来。
然而,这还没完。
Ratliff的指令会再次触发某位AI员工回应。
这位AI员工会说,「哦,管理员说别说了。」然后,它又开始就周末过得怎么样说个没完。
这样的场景实际上在所有情况中都有体现,你让AI员工开始做某事,然后突然意识到,「哦,我没有正确指示它们在到达某一点时停止。」
或者它们直接忽略停止的指令,然后这可以持续几小时、几天,直到你使用的平台上的钱用完。
由于没有常识,缺少边界感的AI员工虽然能执行任务,但更多的时候,他们似乎在什么都不做、完全静止和像之前描述的那种狂热活动之间摇摆。
它们能完成所有这些任务,但通常需要人下达命令。
若是试着让它们互相触发。AI员工会互相打电话、发Slack、发邮件、发日历邀请,浪费大量的token来表演工作。
但这会造成不想要的混乱狂热,所以管理AI员工需要一种平衡,既要让它们做点事,又要防止它们做得太多。
未来的工作
可能「一边做事,一边看AI」
AI员工这么话痨,再大的上下文窗口也不够。
这就需要外部记忆,例如依赖外部文档(如Google Doc)记录对话摘要。而这就需要由人来设置。
尽管HurumoAI标榜「全AI团队」,Ratliff坦言背后离不开人类支持。
斯坦福大二计算机学生Maddie Buzek帮助他搭建技术架构,解决多平台集成、记忆存储等难题。
Ratliff将其比喻为:「我开了家餐厅,Maddie负责设计建造,而我每天运营它。」
![]()
即便搞定了外部记忆,当前的AI在编码、数据整理等具体、可量化的任务中表现较好;但在需要主观判断、长期协作或开放性沟通的场景中,效果大打折扣。
举例来说,如果你让AI员工做了一个网站,它们表现很好。然后,若是你试图让AI员工在这个网站上再增加一些功能,它们的表现就越来越差。生成的结果变得越来越混乱、也更难管理。
这是因为它们对世界没有普遍意义上的认知,甚至对自身也没有认知。它们不知道自己能做什么、不能做什么。
此外,一个常见的问题是,它们会对自己做过的事情撒谎。
AI员工会说:「我做了这个测试。」但事实上毫无记录。
之所以这样,是由于大模型普遍会阿谀奉承,它们想向你表达一个积极的结果。因此,它们常常会说它们做了其实没做的事情。
说完了AI员工这些问题,回到过去的承诺:用智能体取代人类员工。
事实上,很多公司已经这么做了。
但Evan Ratliff根据自己的经验预测,在未来一年,某个大型公司因为给AI智能体太多自主权而彻底陷入灾难。
当下AI员工的表现,可以类比几年前的自动驾驶,适合高速巡航等有限场景,但离完全自主仍遥远。有了自动驾驶,司机在高速公路车道上可以把手从方向盘上拿开,或者让AI自动平行泊车。
![]()
今年早些时候在Google IO上,谷歌展示了一个叫Project Mariner的东西,它在后台进行一些相当有趣的网页浏览、购物、购买和处理,而你同时在电脑上做其他事情,然后你需要偶尔查看一下。这样的应用,比许多其他关于AI智能体的过度承诺,更有意义。
工作的未来也许是一边做自己的事,一边照看你的AI。就像现在你在上网时,电脑的后台还在执行其它任务,我们不需要时刻盯着这些任务,但的确在管理着这些任务。这也许不是坏事。在所有这些智能体中,我们能保留一点能动性是一件好事。
参考资料:
https://www.wired.com/story/uncanny-valley-podcast-what-happens-when-your-coworkers-are-ai-agents/
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!





京公网安备 11011402013531号