微软招募前罪犯测试人工智能！这操作太颠覆，安全竟靠他们守护

IP属地中国·北京 编辑：陆辰风云景史记 时间：2026-03-23 14:15:13

这家科技巨头组建了一支“红队”，负责在所有人工智能产品问世前进行全面评估，并在必要时及时按下暂停键。
从左至右：丹尼尔·克鲁茨、拉姆·尚卡尔·西瓦·库马尔和托丽·韦斯特霍夫在美国雷德蒙德的微软总部。
微软总裁布拉德·史密斯沉思了片刻，十分自然地用到了“安全护栏”这个词，仿佛他已经在悬崖边缘徘徊并深思熟虑了无数次。
在微软位于美国雷德蒙德的总部举行的一场创新论坛上，《国家报》等多家国际媒体受邀出席。记者向他提问：在当前的战争背景下，究竟由谁、又以何种标准来决定微软的人工智能技术是否可以用于军事冲突？
消息称，人工智能企业安斯罗普公司为其技术的军事应用划定了红线，随即遭到美国国防部的封杀，该公司已于日前将国防部告上法庭。
这是目前大型科技公司内部最为激烈的争论焦点，而微软对此也并不陌生。早在2021年，由于内部员工的强烈抗议，美国国防部被迫取消了与微软高达100亿美元的合作协议。事实上，在这场安斯罗普公司与美国国防部的博弈中，微软也表达了对前者的支持。
史密斯回应称：“我们确立了原则，并将其公之于众。从本质上讲，这些原则构筑了安全护栏。我们始终确保自己在护栏内行驶。这不仅关乎我们何时应该应用技术，更关乎我们何时必须坚决禁用它。”
为此，微软专门设立了一支负责攻击自家产品的团队——“红队”。这个名称源自军事术语。在军队中，“红队”的职责是模拟敌方攻击，以便在真正的敌人发动袭击前发现自身的防御漏洞。在网络安全领域，这种演习机制已经确立了数十年。
然而，将这一机制引入生成式人工智能领域却是相对较新的尝试。微软自豪地表示，他们是这一领域的先驱，早在2018年便组建了这支团队。
“在任何产品推向市场之前，红队的任务就是摧毁这项技术，以便其他团队能够将其重构得更加坚固和安全。”自诩为“数据牛仔”的“红队”负责人拉姆·尚卡尔·西瓦·库马尔解释道。
他进一步指出：“人工智能可能会引发诸多隐患，从系统安全漏洞到心理社会层面的伤害不一而足。人们往往在极度脆弱的时刻使用微软副驾驶助手，因此，在这些系统真正触达用户之前，预判它们可能出现何种故障，是一项至关重要的工作。”
这个类似于人工智能“内务部”的团队，目前已经审查了微软旗下的100多款产品。微软并未对外透露该团队的具体规模，也未说明是否曾有产品被叫停，或是具体涉及哪些产品。
但公司明确保证，该团队拥有绝对的否决权。库马尔郑重承诺：“任何高风险的人工智能系统在部署前，都必须经过独立的压力测试。如果我们的团队发现了尚未消除的严重隐患，在问题彻底解决之前，该产品绝不会被发布。”
在产品发布前进行评估时，团队始终会提出这样一个核心问题：“在未来几个月甚至几年里，这个人工智能系统将如何被使用？它是造福人类，还是会带来灾难？”
史密斯提到的“安全护栏”，实际上是六项通用原则。尽管听起来宏大，但团队认为在审查具体产品时，这些标准极为清晰：公平性、责任感、透明度、可靠性与安全性、包容性，以及隐私与数据保护。在日常工作中，这些原则被转化为具体的测试工具。
“如果你直接丢给工程师一份长达五十页的原则文件让他去执行，他绝对会感到崩溃。因此，我们开发了一款名为派瑞特的开源工具。它最初是为内部使用而设计的，但后来我们将其向全球开放，因为我们深信，整个生态系统的健康发展至关重要。”库马尔表示。
据库马尔介绍，“红队”的成员构成极为多元，包括神经科学家、语言学家、国家安全专家、网络安全权威、退伍军人，甚至还有一名“已经改过自新”的刑满释放人员。
此外，团队成员总共掌握17种语言，甚至包括“法语、蒙古语、泰语和韩语的某些地方方言”。这位团队负责人解释说，“红队”近乎偏执的目标之一，就是确保人工智能在世界任何角落都不会犯下致命错误。
与库马尔共同指挥“红队”行动的，是托丽·韦斯特霍夫。她的履历完美融合了认知神经科学与国家安全战略——她曾就读于耶鲁大学，是沃顿商学院神经科学倡议项目的早期成员，同时还曾在情报和国防机构任职。
“当我们接到任务时，”她阐述道，“我们会模拟这项技术在极端使用场景下可能出现的故障。我的团队不仅会深入研究产品的预期用途，更会设想各种非预期的滥用方式。我们要挖掘出最极端的边缘案例，协助产品开发团队重现并消除这些隐患，绝对不能让现实世界中的任何人有机会利用这些漏洞。”
他们工作的一个典型案例，是对OpenAI去年八月发布的GPT-5模型进行内部代号为“红队演练”的黑客攻击。他们的策略是：训练另一个人工智能模型，让其自动对目标程序发起攻击，其攻击规模和强度是人类根本无法企及的。
在测试该模型时，“红队”利用“派瑞特”工具自动生成了超过200万次诱导性对话陷阱。作为攻击方的人工智能连续数日不间断地试图欺骗被攻击的人工智能，探索出人类大脑永远无法构想出的复杂组合。
如果依靠人工来寻找这些系统弱点，过程将极其漫长。正是基于这个原因，他们才决定用魔法打败魔法，训练人工智能去摧毁人工智能。“这就如同《盗梦空间》一样，”库马尔提到了克里斯托弗·诺兰执导的那部经典电影，影片中的角色能够潜入梦境中的梦境。
然而，韦斯特霍夫、库马尔以及负责微软“负责任的人工智能”部门的丹尼尔·克鲁茨均坚持一个核心观点：自动化是有极限的。公司方面强调：“红队演练的自动化程度终归有限，最终只有人类才能判断人工智能生成的回复是否令人感到不适，或者是否存在潜在的偏见。”
标准由人类制定，规模由机器拓展。这种精妙的分工模式，精准地定义了该团队的运作哲学。
韦斯特霍夫深信，事实上，只有人类的思维才能“想象出那些尚未被观测到、未被完全定义或探索的未知领域；我们的使命，就是在那些已经被系统化的空间之外，持续进行创新与创造”。
团队指出了三个自动化天生存在盲区、必须依赖人类判断的关键领域。首先是专业领域层面：在医疗诊断或公共安全等高风险行业，必须由专业人员来评估潜在风险。
其次是人工智能的应用地域层面。微软公司表示：“我们需要人类的介入，以充分考量语言表达的微妙差异，并根据不同的政治和文化背景，重新界定何种言论或行为会构成实质性伤害。”
最后一点则是情感智能。归根结底，只有人类才能全面评估用户与人工智能系统之间可能产生的复杂互动。一个模型即使顺利通过了所有的自动化测试，在特定的现实情境下，它依然可能生成让真实用户感到极度不安的回复。
这种对人工智能的审视视角，与DeepMind联合创始人、现任微软人工智能部门首席执行官穆斯塔法·苏莱曼的理念不谋而合。就在几天前，他在《自然》杂志上撰文警告：“一个看似具备自我意识的人工智能，极有可能被转化为致命武器。”
他论证道，随着人工智能系统越来越逼真地模仿人类语言结构，我们迫切需要制定严格的设计规范和法律法规，以防止它们被误认为是具备知觉的生命体。苏莱曼在文章中强调：“它们必须始终对人类负责，并无条件服从于人类的福祉。人工智能代理绝不应该拥有比我的笔记本电脑更多的权利或自由。”
总而言之，贯穿“红队”全部工作的核心理念在于：“负责任的人工智能绝不是在开发末期才加上的一个过滤网，而是整个研发过程的基石。”库马尔总结道。这正是史密斯口中所说的“安全护栏”，它实际上并不是阻碍发展的刹车片，而是确保我们在高速狂奔时不会坠入深渊的必要前提。
作者：帕特里夏·费尔南德斯·德利斯

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

如何把百度推广创意提升30%的点击率，让您的广告脱颖而出呢？

特变电工携手华为交出智慧园区亮眼答卷

浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互

别只盯着大模型了，这家运营商正在下一盘「通算智」融合的大棋

附判决丨专家点评：上海首例人工智能大模型著作权侵权案二审宣判

不怕搞烂Excel公式！Claude杀入微软全家桶，一段话跑完4个Office

全站最新

如何把百度推广创意提升30%的点击率，让您的广告脱颖而出呢？

特变电工携手华为交出智慧园区亮眼答卷

浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互

别只盯着大模型了，这家运营商正在下一盘「通算智」融合的大棋

热门推荐

如何把百度推广创意提升30%的点击率，让您的广告脱颖而出呢？

韩国称霍尔木兹海峡起火船只曾遭袭，两个不明飞行物两次击中船尾

新华社快讯：我国将于11日8时13分发射天舟十号货运飞船。目前，长征七号遥十一运载火箭已完成推进剂加注

特变电工携手华为交出智慧园区亮眼答卷

浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互

别只盯着大模型了，这家运营商正在下一盘「通算智」融合的大棋

附判决丨专家点评：上海首例人工智能大模型著作权侵权案二审宣判

不怕搞烂Excel公式！Claude杀入微软全家桶，一段话跑完4个Office

新农人李建国：从“前端工程师”到乡村振兴“头雁”

特变电工携手华为交出智慧园区亮眼答卷

据报DeepSeek首轮融资规模500亿元加快大模型迭代发布速度

藏语大模型亮相北京科博会弥合AI时代“数字鸿沟”

华为官网确认：畅连App「实时对讲」功能将支持部分机型无网使用

NVIDIA失宠！华尔街疯抢硬件四雄 Intel、AMD上演CPU大反攻

NVIDIA、Meta之后：AMD加入CPU回归阵营！力推1:1 CPU-GPU配比