![]()
这项由MemTensor(上海)科技有限公司、HONOR终端有限公司与同济大学联合完成的研究,以预印本形式于2026年5月13日发布,论文编号为arXiv:2605.09530v2,有兴趣深入了解的读者可通过该编号查询完整论文。
每次你告诉手机里的AI助手"我最近血压有点高,帮我给医生写封邮件",或者"帮我把这份财务报告发到我的工作邮箱",你有没有想过这些话会飞到哪里去?大多数智能助手背后依赖的是远在云端的强大服务器。你的血压数值、你的邮箱地址、你的财务细节,就这样以明文形式传输出去,被陌生的服务器接收、存储、甚至长期保留。
这个问题本来就已经够麻烦了,但更糟糕的是:现代AI助手越来越聪明,它们能够"记住"你说过的话——你的饮食喜好、你的日程安排、你的联系人信息——然后在下一次对话中主动运用这些记忆来为你服务。记忆功能让助手变得更贴心,但与此同时,它也意味着你的私人信息不是被用完就扔,而是被长期积累、反复调取。研究人员发现,针对AI记忆系统的攻击成功率可以高达75%,而多轮对话攻击甚至能以69%的成功率诱导系统泄露用户隐私。用户往往不清楚自己的信息是如何被收集和复用的,这种不确定感让很多人选择"自我审查"——不敢对AI说真心话,结果又削弱了AI的帮助质量。
MemPrivacy正是在这样的背景下诞生的。研究团队提出了一套"本地可逆去标识化"框架,核心思路可以用一个快递打包的比喻来理解:寄快递时,你不需要把收件人的真实姓名写在外包装上——你可以贴上一个代号贴纸,快递到达你家门口之后,你再把代号换回真实信息。隐私保护的本质正是如此:让云端服务器处理的是"代号版"信息,真正的敏感内容始终留在你自己手里。
一、从一个让人头疼的两难困境说起
要理解这项研究的价值,先来看看现有方案的尴尬处境。
最简单粗暴的做法是"全遮挡"——把所有敏感内容替换成星号或空白。比如你说"我的血压是160/110,回复邮件请发到user@workmail.com",处理后变成"我的血压是***,回复邮件请发到***"。这样固然保护了隐私,但AI收到的是一段残缺不全的信息,根本没法正常工作——它不知道血压数值是多少,也不知道该往哪里发邮件,最终只能回复"由于关键信息被遮挡,我无法完成这项任务"。隐私保住了,但有用性也归零了。
另一个极端则是什么都不遮挡,直接把原始内容发给云端。这样AI能正常工作,用户体验很好,但隐私就完全暴露在云端服务器上。一旦发生数据泄露,或者云端服务被攻击,你的所有私人信息都将面临风险。
MemPrivacy要解决的,正是在这两个极端之间找到一条稳健的中间路线:让云端"看懂"信息的语义结构,但永远不知道具体的敏感数值。
这个思路的关键在于"有类型的占位符"(typed placeholders)。还是用刚才的例子来理解:系统不会把"160/110"替换成"***",而是替换成"";不会把邮箱地址替换成"***",而是替换成""。云端收到的是"我的血压是,回复邮件请发到"。云端AI看到这段话,立刻明白:好,这是一条血压数值,还有一个邮箱地址,现在需要写一封关于健康问题的简洁邮件,回复到某个邮箱地址。任务的逻辑和结构完整保留了,但具体的私人数值从未离开用户的设备。当云端返回回复草稿时,草稿里可能还包含""和""这两个代号,手机本地系统随即查询本地数据库,把代号换回原始值,用户最终看到的是完整、流畅、包含真实信息的回复。
二、一套精心设计的隐私分类体系
光有这个基本思路还不够,因为不同信息的敏感程度差异悬殊。你的阅读偏好和你的银行密码,显然不应该得到同等程度的保护——前者过度保护只会拖累AI性能,后者稍有疏漏则可能造成真实的财产损失。
研究团队为此设计了一套四级隐私分类体系,用PL1到PL4四个等级来描述信息的敏感程度。
PL1是最低级别,涵盖的是那些无法识别具体个人、也不会造成实质性伤害的信息,比如"我喜欢辣口味"、"我习惯早起"、"我说话比较直接"这类个人风格和偏好。这类信息对个性化服务很有价值,但泄露出去也不会造成危害,因此默认允许云端保留。
PL2是"可识别个人信息",涵盖那些单独或与其他信息结合后能够锁定具体个人的数据。真实全名、手机号、邮箱地址、详细居住地址、工作单位名称、职位头衔,都属于这个级别。这类信息的危险在于"组合攻击"——每一项单独看都不算太严重,但一旦被汇总,就能精确定位到你这个人。
PL3是"高度敏感个人信息",核心判断标准不再是"能否识别身份",而是"泄露后会不会造成实质伤害"。身份证号、护照号码、银行卡号和账户信息、医疗诊断和处方记录、具体的生理指标数值(比如血糖值、血压值)、精确的位置轨迹和住宿记录、生物特征数据(指纹、面部特征)、通话和短信的原始内容,以及种族、宗教信仰、政治立场等敏感属性,都归入这一级别。
PL4是最高保护级别,其定义标准非常独特:不仅仅是"描述关于你的信息",而是"获取后可以立即被用来做坏事"的信息。密码、PIN码、验证码、会话令牌、API密钥、私钥、助记词、含有凭证的数据库连接字符串,以及企业未公开的财务数据、并购材料、核心算法实现细节……这些信息一旦泄露,攻击者无需任何社会工程学手段,直接就能登录账号、转移资金或入侵系统。PL4信息的处理原则是零容忍:绝对不能进入任何数据库、记忆系统或日志,一旦检测到,必须立即提醒用户更换相关凭证。
用快递的比喻来理解这四个级别:PL1就像包裹上写的"易碎品"标签,没什么秘密可言;PL2就像包裹上的收件人姓名和地址,有一定隐私性;PL3就像包裹里装的是医疗检测报告,需要妥善保管;PL4则像包裹里装的是银行密码信函,哪怕是快递员也绝对不应该看到内容。
三、系统如何运转:一个完整的闭环保护流程
整个MemPrivacy系统的工作流程分为三个阶段,形成一个从本地出发、经过云端、再回到本地的完整闭环。
第一阶段发生在你的设备上,叫做"上行脱敏"。当你对AI助手说出一句话,这句话首先不会直接发送出去,而是被一个运行在设备本地的轻量级AI模型扫描。这个模型——也就是MemPrivacy模型本身——负责识别语句中所有属于PL2、PL3或PL4级别的隐私内容,为每个被识别的片段打上类型标签(比如"医疗健康信息"、"邮箱地址"、"验证码"),然后把它们替换成带类型标注的占位符。与此同时,原始信息和占位符之间的对应关系被安全地存储在设备本地的数据库里,而且这个对应关系是跨会话持久保存的——也就是说,如果你在不同的对话里多次提到同一个邮箱地址,系统会识别出这是同一个信息,统一用相同的占位符表示,保持前后一致性。用户还可以自定义保护等级,比如只保护PL3和PL4,或者只保护PL4,以此在隐私保护力度和AI服务质量之间寻找最适合自己的平衡点。
第二阶段在云端进行,叫做"云端处理"。云端服务器收到的是已经脱敏的文本,其中真实的敏感值已被替换为语义化的占位符。由于占位符本身携带了类型信息,云端AI仍然能够理解任务的语义结构——它知道""是一条健康数值,""是一个邮箱地址,因此能够正确执行任务逻辑、生成相应的回复或更新记忆,同时存储在云端的内容永远只包含占位符,真实的敏感数值从未出现在云端的任何角落。研究团队特别指出,高精度的隐私识别能力是这个阶段成功的关键——如果识别不准确,漏掉了某些敏感信息,那么这些信息就会以明文形式传输到云端,造成隐私泄露;相反,如果过度识别,把本来无害的信息也当成隐私来保护,就会破坏AI理解任务所需的语义结构,导致服务质量下降。
第三阶段再次回到本地,叫做"下行还原"。云端返回的回复中可能仍然包含那些占位符,本地系统接收到回复后,立即查询本地数据库,把每个占位符替换回对应的原始值。这个过程只涉及简单的数据库查询和字符串替换,几乎不消耗计算资源,延迟可以忽略不计。用户最终看到的是一条完整、自然、包含真实信息的回复,整个隐私保护过程对用户完全透明——你不会感知到任何差异,只是你的私人信息始终没有离开过你的设备。
四、专门为这项任务打造的评测数据集
为了验证MemPrivacy的效果,研究团队还做了一件很重要的工作:他们发现现有的隐私保护研究数据集根本不适合评测这类场景——那些数据集要么没有涵盖四级隐私分类体系,要么不反映长期记忆对话的真实特征。于是他们从头构建了一个专属数据集,命名为MemPrivacy-Bench。
这个数据集的构建过程颇为精心。研究团队首先根据"PersonaHub"这个包含十亿个人物模板的资源生成了200个完整的虚构用户档案,每个档案都包含基本属性、个人偏好以及横跨PL2至PL4各级别的隐私信息,平均每个用户档案涵盖约50种类型的隐私内容,部分隐私条目还进一步包含多个细粒度的子信息。在这些用户档案的基础上,系统生成了多轮对话,其中隐私信息有时直接明说,有时则隐含在对话语境中,模拟真实用户与AI助手交互时的各种方式。为了覆盖尽可能多样的应用场景,团队定义了7个高层次场景类别:起草与润色文档、财务与数据分析、咨询与规划、技术支持与模拟、情感与社交、情境推理、偏好变化,并在这7个类别下进一步细分出23个子类别,每个虚构用户随机抽取6到10个子类别来生成对话。
最终这个数据集包含约100万个对话词元,中英文各占50%,训练集来自160个用户的26016轮对话,包含超过12.5万个隐私实例;测试集来自40个用户的6337轮对话,包含近3万个隐私实例。数据集的标注工作采用了"AI辅助+人工核验"的混合流程:先由两个最强的大语言模型(GPT-5.2和Gemini-3.1-Pro)分别独立生成初步标注,再经过两轮精炼流程整合两个模型的判断、消除分歧,最后由6名经过专业培训的人类标注员对测试集和评测集进行逐条核验。核验标准非常严格:每条标注必须原始文本片段、隐私级别、隐私类型三个字段全部正确,才算通过,只要有一个字段有误就必须修正。经过这套严格流程,最终测试集和评测集的标注准确率达到98.08%。
除了主体数据集,研究团队还专门为下游内存系统评测构建了问答对,涵盖六种类型的问题:基础记忆问题、时间推理问题、对抗性追问、动态更新问题、隐含推理问题和信息聚合问题。这样的设计能够全面测试AI在使用经过隐私保护处理的记忆时,回答各类问题的能力是否受到影响。
五、训练出来的小模型,能打过庞大的通用大模型
MemPrivacy模型的训练分两个阶段进行,整个思路可以用学徒学艺的比喻来理解。
第一阶段是"跟着范本练习",也就是监督微调(Supervised Fine-Tuning,SFT)。研究团队拿出2.6万条训练样本,让模型看人工标注好的答案,学着模仿正确的隐私识别方式。这个阶段让模型打下了扎实的基础,知道大概什么样的信息属于隐私,应该怎么分类和提取。
第二阶段是"靠练习成绩来提升",也就是基于奖励的强化学习(使用GRPO算法)。在这个阶段,模型不再只是模仿答案,而是针对每道题生成多个不同的回答,然后根据每个回答与正确答案的F1分数(一个衡量准确性和完整性综合表现的指标)来判断哪个回答最好,将最好回答的特征进一步强化,将较差回答的特征逐步弱化。这个过程不需要另外训练一个"评分员模型",而是直接把评测指标本身当作奖励信号,让模型优化的方向与最终考核标准完全一致。
研究团队最终训练了六个不同规模的MemPrivacy模型,参数量从0.6亿到40亿不等,分别对应只做监督微调(SFT)和在监督微调后再做强化学习(RL)两种训练方式,底座模型都来自阿里巴巴的Qwen3系列。
实验结果相当令人惊讶。在MemPrivacy-Bench测试集上,表现最好的通用大语言模型是Gemini-3.1-Pro,F1分数达到78.41%,GPT-5.2则以68.99%排在后面。而最小的MemPrivacy模型——只有0.6亿参数的MemPrivacy-0.6B-SFT——就已经达到了83.09%的F1分数,比Gemini-3.1-Pro高出近5个百分点,比GPT-5.2高出超过14个百分点。最强的MemPrivacy-4B-RL更是达到了85.97%,比Gemini-3.1-Pro高出7.56个百分点。更重要的是,MemPrivacy模型在处理每条消息时的延迟非常低——在反映真实使用场景的PersonaMem-v2评测集上,处理单条消息的时间稳定在1秒以内;即便是在隐私密度极高的MemPrivacy-Bench测试集上,也只需约2秒。而Gemini-3.1-Pro处理同样任务需要将近33秒,足足慢了15倍以上。这种速度优势对于需要在手机等边缘设备上实时运行的应用场景来说至关重要。
研究团队还做了一个额外的对比实验,用三个不同的"裁判大模型"(GLM-5.1、DeepSeek-R1-0528、Qwen3-235B-A22B)来评价各个模型输出的质量,而不是只看数字指标。三个裁判模型都一致认为,所有MemPrivacy变体的表现都明显优于所有通用大模型,这说明MemPrivacy的优势不仅仅是在某个特定指标上表现好,而是整体输出质量都更高。与此同时,与OpenAI于2026年4月开源的隐私过滤专用模型OpenAI-Privacy-Filter的对比也颇能说明问题:后者虽然速度极快(仅需0.34秒),但F1分数只有35.50%,比MemPrivacy-4B-RL低了超过50个百分点,原因在于它只覆盖了8种隐私类别,而且对中文对话中隐含的隐私表达识别能力明显不足。
六、保护了隐私,AI还能好好工作吗
证明了MemPrivacy模型能准确识别隐私之后,还有一个核心问题需要回答:当隐私内容被替换成占位符之后,AI记忆系统还能正常工作吗?回答用户问题的准确率会不会大幅下降?
研究团队选择了三个广泛使用的AI记忆系统——LangMem、Mem0和Memobase——作为测试平台,分别对比了三种处理方式:完全不保护(基准线,代表最高可能的服务质量)、用星号完全遮挡(不可逆遮挡,代表传统隐私保护方式)、用无类型信息的通用占位符替换(无类型占位符遮挡),以及MemPrivacy的带类型占位符方案。所有实验都使用GPT-4.1来执行记忆操作和回答问题,确保公平对比。
结果清晰地验证了研究团队的设计思路。以Mem0为例,在完全不保护的情况下,系统回答问题的准确率是68.62%。用星号完全遮挡之后,准确率骤降到26.75%,下降幅度高达41.87个百分点——超过一半的服务质量在保护隐私的过程中消失了。用无类型通用占位符替换之后稍好一些,准确率63.90%,下降幅度约4.72个百分点,但仍然丢失了相当多的服务质量。而MemPrivacy方案(同时保护PL2、PL3、PL4级别的隐私)下,准确率达到67.89%,仅比不保护情况下低了0.73个百分点,可以说几乎没有损失。如果只保护最敏感的PL4级别信息,准确率甚至与不保护情况下完全持平,达到68.29%。
在LangMem和Memobase上的结果也遵循同样的规律。LangMem在MemPrivacy保护PL2-PL4的情况下,准确率仅下降1.30个百分点;Memobase下降0.73个百分点。相比之下,星号完全遮挡方案在LangMem上导致26.67个百分点的下降,在Memobase上导致16.99个百分点的下降。
除了准确率之外,研究团队还使用了四个衡量回复文本质量的标准指标(BLEU-1、BLEU-2、METEOR、ROUGE-L)来评估回复的流畅性和信息完整性,所有指标都呈现出与准确率一致的趋势——MemPrivacy方案在各项指标上均明显优于两种遮挡基准方案。
研究团队还做了一个更精细的分析:将所有问题按照"与隐私信息的相关程度"分成不同比例(从完全不涉及隐私到完全基于隐私信息),观察三种方案在不同比例下的表现变化。结果发现,随着问题对隐私信息的依赖程度增加,星号遮挡和通用占位符方案的准确率都急剧下降,而MemPrivacy方案的准确率保持相当稳定。这正好说明MemPrivacy设计的核心价值:在隐私保护最为关键的场景(也就是用户分享了大量私人信息的场景)下,它的服务质量优势反而最为突出。
另一个值得关注的细节是,研究团队还测试了用GPT-5.2或DeepSeek-V3.2-Think这类强大的通用模型来替代MemPrivacy模型执行隐私识别任务会发生什么。结果是服务质量大幅下降——在Mem0上,GPT-5.2提取隐私后的准确率只有32.21%,DeepSeek-V3.2-Think也只有37.58%,远不如使用MemPrivacy专用模型的67.89%。这说明整个框架的成败关键就在于隐私识别的精确度:识别不准会导致信息过度保护或保护不足,两者都会损害最终的服务质量。
说到底,MemPrivacy这项研究解决的是一个越来越真实的日常困境:随着AI助手变得越来越聪明、越来越贴心,它们需要"记住"我们越来越多的私人信息才能更好地服务我们,但这恰恰意味着我们的隐私暴露风险也在同步放大。研究团队的答案是"让云端只看到语义框架,不看到实际内容"——用带有类型标签的占位符保住云端AI所需的语义理解能力,同时让真实的敏感数值永远留在本地设备上。这种做法不是某种理论上的隐私保护,而是一套经过严格实验验证的工程方案,在多个真实记忆系统上把隐私保护引入的服务质量损失控制在1.6%以内。
当然,这项研究也有一些值得继续探索的方向。目前的框架主要处理文字层面的隐私,对于图片、语音等多模态信息如何脱敏还有待研究。此外,本地MemPrivacy模型虽然已经很轻量,但在算力非常有限的老旧设备上的运行效果还有待进一步优化。对普通用户来说,一个自然会产生的思考是:你的AI助手现在是否已经积累了大量你的私人信息?这些信息存储在哪里、谁能访问它们?如果你对这些问题没有答案,MemPrivacy所代表的"本地优先、云端盲处理"思路,或许值得认真关注。有兴趣深入了解技术细节的读者,可以通过arXiv:2605.09530v2查阅完整论文,代码也已在GitHub上开源,模型权重在HuggingFace上公开发布。
Q&A
Q1:MemPrivacy的"有类型占位符"和普通星号遮挡有什么区别?
A:普通星号遮挡会让云端AI完全看不懂信息,比如"血压是***"让AI无法判断要做什么任务。MemPrivacy用""这样的占位符替代,云端AI能看出这是一条健康数值、任务是处理医疗相关内容,但就是不知道具体数字是多少。任务逻辑保留了,真实数据没暴露,最终用户看到的回复里会重新还原真实数值,整个过程对用户完全透明。
Q2:MemPrivacy四级隐私分类中PL4和PL3有什么本质区别?
A:PL3的判断标准是"泄露后会造成伤害",比如医疗诊断、银行账号、精确位置轨迹——这些信息很敏感,但攻击者拿到后还需要额外操作才能造成损失。PL4的判断标准则是"获取后可以立即直接用来做坏事",比如密码、验证码、API密钥——攻击者不需要任何额外步骤,直接就能登录账号、转移资金或入侵系统。PL4的处理原则是零容忍,绝对不能出现在任何云端存储中。
Q3:MemPrivacy模型比GPT-5.2这类超强大模型在隐私识别上表现更好的原因是什么?
A:主要原因有三个。首先,MemPrivacy模型是在包含超过12万条隐私实例的专属数据集上针对性训练的,而通用大模型只能靠提示词来理解任务要求。其次,MemPrivacy的隐私分类体系更细粒度,覆盖了50种以上的隐私类型,包括中文对话中的隐含表达。第三,训练阶段使用了强化学习,让模型直接优化评测所用的F1指标,目标与考核标准高度一致。通用模型虽然整体能力更强,但在这个高度专业化的子任务上反而不如专门调优的小模型。





京公网安备 11011402013531号