南科大危学涛：模型、护栏、国标“三管齐下”守住智能体安全

IP属地中国·北京 南方都市报 时间：2026-05-21 22:21:52

5月21日，以“如何共守智能体安全底线”为主题，“AI新治向”系列沙龙第二期活动在广州举行。活动上，南方科技大学计算机系长聘副教授（研究员、博导）危学涛以“智能体伦理与安全的探索与思考”为主题进行了分享。
在分享中，危学涛厘清了safety（无意的行为）与security（恶意的攻击）的区别，并指出智能体无意失误带来的风险往往比恶意攻击更为隐蔽且难以防范。基于此，他提出了模型能力内生对齐、外部动态护栏、国家标准引导“三管齐下”的系统性治理路径，尤其关注长尾风险与隐性风险等深水区挑战。

“AI新治向”系列沙龙第二期活动现场，南方科技大学计算机系长聘副教授（研究员、博导）危学涛作主题分享。
理解智能体安全风险的双重维度
随着智能体从对话层面向数字世界、物理世界跃迁，其安全风险也向广域化与深层化的方向发展。危学涛认为，在探讨智能体伦理安全之前，必须厘清safety与security两个“安全”相关的关键概念。
Security针对的威胁源于恶意攻击，如黑客劫持、后门攻击等，其目标是防止智能体“被人利用”；Safety关注的则是非蓄意的、无恶意的系统故障或自身缺陷，例如模型偏见导致的不公正输出、决策错误引发的人身或精神伤害，其目标是防止智能体“自身出错”。
危学涛进一步将智能体伦理安全问题归纳为“内容安全”和“行为安全”两大维度。内容安全，指的是智能体生成有害的文本、图像、视频内容等的风险。行为安全，是智能体在与复杂环境的互动中决策行为产生的危险后果，往往带来更大的挑战，例如，内容创作智能体未经授权爬取网页内容并发布至自媒体平台，购物智能体购买了致用户过敏的食物等。
他指出，在智能体实际部署中，无意失误带来的风险往往比恶意攻击更为隐蔽且难以防范。
模型、护栏、国标“三管齐下”系统治理
在危学涛看来，深水区隐性风险“漏网之鱼”的隐蔽性、“防不胜防”的长尾风险，以及安全对齐技术的表面对齐、可验证治理工具缺乏等问题，给智能体伦理安全带来巨大挑战。
基于此，危学涛提出了模型能力内生对齐、外部设置动态护栏、国家标准引导“三管齐下”的系统治理路径。他强调，在整个治理体系中，护栏模型应该成为未来智能体系统的标配，它不以被监控的基础模型的意志为转移，像一个“杀毒软件”可以“即插即用”地部署在各类终端，具备最小闭环、持续校正更新、兼顾监管牵引和现实驱动等优点。
面对智能体的隐性风险挑战，危学涛认为，从国家标准层面来看，尤其应该通过提供可验证、可量化的指标和工具进行系统性引导。他还呼吁，推动哲学社科和计算机AI两个领域进一步有效交流和交叉融合，有的放矢开发治理工具，为智能体伦理安全治理提供有效抓手。
“AI新治向”系列沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室、南方都市报社主办，广东省网络数据安全与个人信息保护协会支持。相关政府部门、司法、学界、企业、媒体等多方代表出席了活动，聚焦国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新发展实施意见》核心要求，剖析智能体应用安全风险底层逻辑，探讨多元共治与创新实践方案。
出品：南都大数据研究院
采写：南都研究员唐静怡
摄影：南都N视频记者袁炯贤

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

互联网的meme危险了

大利好！百度，只剩“搜索”？

首个持续更新Visual Spec-to-App Benchmark发布

新世代iX3首展爆单：宝马终于有能打的纯电车了

“油电同权”大幕拉开，新能源汽车产业步入市场驱动新阶段

老登股要支棱起来了？

全站最新

互联网的meme危险了

大利好！百度，只剩“搜索”？

首个持续更新Visual Spec-to-App Benchmark发布

新世代iX3首展爆单：宝马终于有能打的纯电车了

热门推荐

AI智能体时代下，“一人公司”商业模式的先进性与脆弱性

“AI之王”谷歌，为什么也会慢半拍？

暴涨109%！大量产品抢跑抢量！2026年夏季营销新趋势？

别管耐克了，滔搏赶紧把老人头卖成X-BIONIC吧

塔斯汀、华莱士背后的20亿酱料生意，百利食品冲刺西式复调第一股

揭秘短保生意的灰色空间：21天的保质期，半年的生产工艺

餐饮店，越来越不专一了

亏损的加盟商，增长的麦记牛奶

2026剧集期中考：黑马夺回注意力，“不躺平”的长剧价值依然内娱无代餐

作业帮，一代人的学习入口失效了

可灵AI估值将达1400亿！千亿快手，被严重低估？

存储涨价潮下，苹果选择转嫁，小米选择硬扛

四年并购狂奔，同程旅行想做“小携程”

内存末日，无人幸免

具身智能四肢已练熟，大脑还差千万小时数据底座