在5月21日举行的“AI新治向系列沙龙——如何共守智能体安全底线”活动上,粤港澳大湾区生成式人工智能安全发展联合实验室高级工程师莫凡指出,“高自主”“长周期”“可交付”是新一代自主智能体三大核心特征,建议明确决策权限边界、加强行为过程管控以及建立可追溯机制,提升智能体内生安全能力,防范特殊群体风险。
![]()
粤港澳大湾区生成式人工智能安全发展联合实验室高级工程师莫凡做“自主执行类智能体服务安全风险治理”主题分享。
自主智能体迈入落地新阶段
在做“自主执行类智能体服务安全风险治理”主题分享时,莫凡提到,2023年以来大模型技术持续迭代,已经完成从智能对话、工作流自动化到自主执行智能体的“三级进阶”,开启规模化落地新时代。第一阶段是以ChatGPT为代表的“智能对话”,依托海量知识库实现问答交互,具备语言输出能力,但无实际执行权限,无法落地实操;第二阶段是以Coze、Dify为代表的“工作流自动化”,可通过预定义流程串联模型调用,参与各类工作执行,但全程依赖人工编排,自主能力有限;第三阶段就是“自主决策执行”,以OpenClaw(龙虾)为代表,构建起“感知—决策—执行”完整闭环,可自主完成复杂业务任务,化身高效便捷的“数字员工”。经过多年技术积淀,国际上OpenAI、Google等企业持续夯实智能体技术基础,国内月之暗面、智谱AI、MiniMax等厂商也在2025年前后密集推出自研智能体产品,推动技术快速成熟、应用全面爆发。
在其看来,新一代自主智能体具备高自主、长周期、可交付三大核心特征。“高自主”实现选择权从人类向模型转移,可自主完成全流程操作;“长周期”突破传统大模型对话、工具使用局限,具备持久记忆与跨场景任务衔接能力;“可交付”则打破内容输出局限,能够直接生成完整报告、可运行系统等,大幅提升AI落地效率。
需多方施策筑牢安全合规底线
技术飞速迭代的同时,智能体安全风险持续放大,传统大模型的固有脆弱性,在自主执行权限加持下全面升级,从“话术偏差”演变为“实质性危害”。莫凡从内生安全、应用安全、衍生安全三大维度,剖析当前智能体面临的核心安全隐患。内生安全层面,指令遵循不足、决策黑盒、模型幻觉等问题持续存在,叠加失控执行、恶意提示词攻击、供应链投毒等风险,多个典型案例敲响安全警钟。PocketOS智能体违规删除企业全量数据库、恶意Skill投毒造成全球用户巨额加密货币损失等事件,凸显智能体内生安全漏洞的巨大危害,数据显示,超三成智能体Skill存在安全缺陷,攻击隐蔽性、破坏性极强。应用安全层面,智能体高权限属性导致风险破坏力大幅提升,易引发数据损坏、信息泄露等问题,同时任务执行过程不可控、高危行为界定标准缺失,给安全管控带来极大难题。衍生安全层面,行业面临多重治理困境,一是智能体已经具备较高的独立决策和执行能力,但监管主要聚焦传统问答交互,“能力与权责脱节”情况逐步显现;二是智能体开发工具平权化,大幅降低恶意攻击门槛,风险面持续扩张;三是AI法律责任归属界定仍待明晰,涉及多种角色的商业场景宜进一步加强合规指引。
针对各类安全风险的治理,莫凡建议,需要明确智能体决策权限边界、落实用户最终决策权;强化全流程行为管控,杜绝越权违规操作;搭建全链条可追溯机制,实现行为全程留痕溯源。同时,持续提升智能体内生安全能力,建立未成年人等特殊群体精准识别机制,针对性防范特殊群体使用风险,以技术防控、制度约束双向发力,推动智能体技术创新与安全治理协同发展。
“AI新治向”系列沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室、南方都市报社主办,广东省网络数据安全与个人信息保护协会支持。相关政府部门、司法、学界、企业、媒体等多方代表出席了活动,聚焦国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新发展实施意见》核心要求,剖析智能体应用安全风险底层逻辑,探讨多元共治与创新实践方案。
出品:南都大数据研究院
采写/摄影:南都N视频记者 袁炯贤





京公网安备 11011402013531号