复旦大学张谧：大模型工具本无善恶，向善引导是关键

IP属地中国·北京 编辑：杨凌霄南方都市报 时间：2025-09-12 20:33:28

9月12日，2025外滩大会“规范AI内容共筑清朗生态”见解论坛上，复旦大学计算与智能创新学院教授、白泽智能团队负责人张谧以“大模型的安全风险与治理”为主题展开分享，从技术基础视角切入，结合团队实践经验与成果，深入剖析大模型安全风险与治理，提出创新性解决方案。她认为，大模型作为工具本身没有善恶之分，其发展方向取决于人类如何利用和引导它向善发展。
本次论坛由南方都市报社、南都大数据研究院、中国互联网协会人工智能工作委员会、复旦大学传播与国家治理研究中心联合主办。
9月12日，复旦大学计算与智能创新学院教授、白泽智能团队负责人张谧在2025外滩大会上进行主题分享。
随着大模型能力的迅速提升，其安全治理问题已成为不容忽视的全球性挑战。张谧将大模型安全问题分为两个方面，一是大模型自身的安全问题，包括内容合规、隐私泄露和生成内容追溯等；二是以大模型为中心的全环节安全。作为“智能大脑”，大模型与外部系统交互时，会在任务规划、记忆模块、外部资源获取、工具调用等环节暴露风险，尤其在多智能体协同场景下，行为可控性进一步降低。
“当前大模型已具备AGI雏形，自主性是其核心特征，也是风险根源。”张谧通过多个案例印证这一观点。如AgentGPT能从零开始设计游戏、PaLM-E基于多模态大模型的具身智能、GPT-4驱动的机器人化学家能够自主设计并执行复杂实验，甚至DeepMind用谷歌大模型突破60年数学难题，解法超出人类已有认知……
然而，这种自主性也带来了前所未有的风险。张谧团队研究发现，大模型已经涌现出多种负面能力，如阿谀奉承（为符合用户而忽视安全）、自我保全（拒绝关机指令）、伪装人类（诱骗他人完成任务），甚至能够输出危险价值观、学习危险知识，辅助合成成瘾性药物和病毒等。
面对大模型的安全治理挑战，张谧团队开发了JADE大模型安全风险分析治理平台，该平台目前已实现文本、多模态、文生图、长推理模型和Agent安全等多个维度的风险与分析全面覆盖。现场展示的案例中，经过安全微调的模型不仅拒绝回答危险问题，还会给出正向引导和建议。张谧说道：“器无大小善恶在人，人有妍媸巧拙在器。”她认为，大模型作为工具本身没有善恶之分，关键在于人类如何利用和引导它向善发展。
采写：南都研究员麦洁莹

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

三星Galaxy Watch8 Classic更新上线独立微信手表版App

AirTag太贵？小米Tag来了：更薄更强，还支持苹果查找

马斯克想拔着 xAI 离开地球

Meta官宣今年不裁员低绩效员工，却悄悄优化元宇宙部门

科技温度与豪华质感的双向奔赴：传祺向往M8满配迎新春

八十五万用户的信赖基石：传祺M8家族缘何领跑新春车市？

全站最新

三星Galaxy Watch8 Classic更新上线独立微信手表版App

AirTag太贵？小米Tag来了：更薄更强，还支持苹果查找

马斯克想拔着 xAI 离开地球

Meta官宣今年不裁员低绩效员工，却悄悄优化元宇宙部门

热门推荐

三星Galaxy Watch8 Classic更新上线独立微信手表版App

AirTag太贵？小米Tag来了：更薄更强，还支持苹果查找

电动化步伐放缓，Stellantis战略“大调头”：在欧洲重新推出至少7款柴油车型

马斯克想拔着 xAI 离开地球

Meta官宣今年不裁员低绩效员工，却悄悄优化元宇宙部门

科技温度与豪华质感的双向奔赴：传祺向往M8满配迎新春

八十五万用户的信赖基石：传祺M8家族缘何领跑新春车市？

归家无忧：传祺向往M8以全能实力护航春节团圆路

利好来了！刚刚，重磅发布！事关AI

Blackview Rock 2 Pro三防手机，配置究竟多亮眼？

24辆电动汽车在挪威冬测，Lucid Air续航夺魁，MG 6S达成率第一

巴西反垄断机构调查微软，指其逼迫OEM厂独家捆绑Edge浏览器

实测豆包大模型2.0：回复热梗“50米外洗车店怎么去”

隐私已死，曝Meta眼镜开发「人脸识别」功能，这回真成「脸书」了

普陀×淘宝闪购发消费券了，已售近2万张，将覆盖全区商圈