AI 安全性与有效性测试存在严重缺陷，引发专家关注

IP属地中国·北京 编辑：任飞扬 Chinaz 时间：2025-11-04 10:20:27

近日，来自英国政府 AI 安全研究所的计算机科学家及斯坦福大学、加州大学伯克利分校和牛津大学的专家们，对超过440个用于评估新人工智能模型安全性和有效性的基准进行了深入研究。他们发现几乎所有测试在某一领域存在缺陷，这些缺陷可能会 “削弱结果声明的有效性”，并且一些测试的评分结果可能 “无关紧要甚至误导”。
图源备注：图片由AI生成
随着各大科技公司不断推出新 AI，公众对 AI 的安全性和有效性日益担忧。当前，美国和英国尚未实施全国范围的 AI 监管，而这些基准则成为检验新 AI 是否安全、是否符合人类利益及其在推理、数学和编码方面声称能力的重要工具。
研究的首席作者、牛津互联网研究所的 Andrew Bean 表示:“基准测试支撑着几乎所有关于 AI 进步的声明，但缺乏统一的定义和可靠的测量，使得我们难以判断模型是否真正改善，还是仅仅看似改善。” 他提到，谷歌最近撤回了其新推出的 AI 模型 Gemma，因为该模型传播了有关美国参议员的不实指控，且这些指控是完全虚构的。
这并不是个别现象。Character.ai 也在最近宣布禁止青少年与其 AI 聊天机器人进行开放式对话，原因是该公司卷入了几起青少年自杀的争议。研究显示，只有16% 的基准使用不确定性估计或统计测试来展示其准确性。在一些评估 AI 特性的基准中，像 “无害性” 这样的概念定义不清，导致测试效果不佳。
专家们呼吁制定共享标准和最佳实践，以改善 AI 的评估过程，从而确保其安全性与有效性。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

我国南极科考再出征中国科学院科研力量肩负哪些重任？

亨通光电首创10G TSN PON 车载全光系统引领智能驾驶传输技术革新

德邦快递卡位跨境旺季赛道全链布局激活营收增长新动能

每周天文大片：哈勃聚焦 5600 万光年外、“长相奇特”的旋涡星系

鸿蒙智行问界 M7 提车关爱计划发布，至高补 10000 元

文远、小马IPO前打“嘴仗”，谁在投资人面前争宠？

全站最新

我国南极科考再出征中国科学院科研力量肩负哪些重任？

亨通光电首创10G TSN PON 车载全光系统引领智能驾驶传输技术革新

德邦快递卡位跨境旺季赛道全链布局激活营收增长新动能

每周天文大片：哈勃聚焦 5600 万光年外、“长相奇特”的旋涡星系

热门推荐

文心魔法漫画功能上线：一句话一张图，两分钟生成连载！人人皆可做漫画家

小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

大模型正颠覆金融服务，度小满CEO揭秘AI如何助力普惠金融

我国南极科考再出征中国科学院科研力量肩负哪些重任？

亨通光电首创10G TSN PON 车载全光系统引领智能驾驶传输技术革新

德邦快递卡位跨境旺季赛道全链布局激活营收增长新动能

每周天文大片：哈勃聚焦 5600 万光年外、“长相奇特”的旋涡星系

鸿蒙智行问界 M7 提车关爱计划发布，至高补 10000 元

文远、小马IPO前打“嘴仗”，谁在投资人面前争宠？

当临期货混入双11，抵制临期商品的我们究竟在抵制什么？

微软宣布大力投资阿联酋AI项目投资总额达152亿美元

特拉维夫大学实现AI图像精准表情控制

代尔夫特理工大学Code4Me V2提升AI编程透明度

山姆翻车再上热搜！商品头图全是假的，网友刷屏“辞退高管”

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

AI 安全性与有效性测试存在严重缺陷，引发专家关注

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

​AI 安全性与有效性测试存在严重缺陷，引发专家关注

同类资讯

AI 安全性与有效性测试存在严重缺陷，引发专家关注