在传统的信息系统中,数据往往被静态地存储在数据库或硬盘中,保护数据的方式也相对简单——只需将其“锁起来”即可。但随着生成式人工智能(GenAI,Generative AI)的快速发展,数据开始在模型的训练、部署、调用、生成等多个环节中持续“流动”,不再是一个静态的资源,而成为 AI 系统生命周期中活跃的参与者。
数据的流动性给其保护带来了新的挑战:我们不仅要防止数据泄露和滥用,还要确保在数据被使用的同时,依然保有“知情、可控、可溯源、可删除”等基本权利。换句话说,在生成式人工智能时代,数据保护不再等同于一刀切的“封锁”,而需要更加细致、动态的治理方案。
正是基于这些观察,来自浙江大学区块链与数据安全全国重点实验室和新加坡南洋理工大学等团队的研究人员进行了一项联合研究,旨在以通俗易懂的语言向广大读者阐述数据保护在生成式人工智能时代下的具体内涵与深远影响。
该工作系统地梳理并回答了数据保护在人工智能时代下面临的一系列关键问题:哪些数据要保护?应该采取怎样的保护措施?可能会遇到哪些新挑战?目前的相关法规和监管现状如何?数据保护和数据安全存在怎样的区别与联系?研究团队进一步提出了一套分层次的数据治理框架,试图在安全性、可用性与可监管性之间找到新的平衡。
(arXiv)
需要了解的是,传统的数据保护理念是“以数据为中心”,无论训练还是保护都围绕数据本身展开;而该研究提出,在 AI 时代,数据保护本质是“以模型为中心”,这样的数据是在与 AI 模型的开发、应用、交互、生产过程中创造价值。
研究人员以模型为核心主线,重新梳理了其全生命周期中可能接触的数据类型以及涉及的各个环节,包括训练数据、训练后的模型、系统提示词、外挂知识库、用户输入的数据与 AI 生成内容等。
不同于以往数据保护中“加密加水印”的简单方法,他们提出了一种覆盖四个关键层级的保护框架——数据不可用性、隐私保护、可追溯性和可删除性。这一创新视角为未来 AI 技术的健康、可持续发展及其治理体系建设指出了明确的方向。
该论文第一作者、曾任浙江大学区块链与数据安全全国重点实验室特聘研究员、现新加坡南洋理工大学研究员(Research Fellow)李一鸣博士对 DeepTech 表示:“我们的核心目标是阐明数据保护在 AI 时代的关键内涵与价值——这也与当前全球范围内推动可信赖 AI 发展的主流诉求高度契合。”
目前,相关论文以《生成式人工智能时代下的数据保护再思考》(Rethinking Data Protection in the(Generative)Artificial Intelligence Era)为题发布在预印本网站arXiv[1]。南洋理工大学研究员李一鸣博士是第一作者,通讯作者由李一鸣博士和浙江大学秦湛教授共同担任。
图丨相关论文(arXiv)
该团队构建了一套从 Level 1 到 Level 4 保护强度逐级递减的保护框架——从“最严格”逐渐降到“最低限度”,每往下一级,其保护强度随之递减,而数据效用则随之相应提升。
Level 1,数据不可用性(Non-usability):这是最高级别的数据保护,需确保特定数据无法用于模型训练或推理。例如,在此前三星员工误把源码贴进 ChatGPT 的事件中,就可以通过“数据不可用性”进行前置性保护。
Level 2,隐私保护性(Privacy-preservation):在保护隐私信息前提下,数据可用于模型开发和应用,也就是数据“可用不可见”,相当于数据脱敏后再使用,降低了数据隐私泄露的风险。
该要求在以往的技术和相关法规中其实就已被提出过,李一鸣举例说道:“例如差分隐私在训练阶段注入噪声,联邦学习将原始记录留在本地只上传梯度,同态加密则允许云端直接对密文运算。”
Level 3,可追溯性(Traceability):这是最新的法规要求,允许数据可使用,但数据必须通过数字水印或区块链等技术记录数据来源和使用与修改历史,并能够在训练或推理得到的模型和生成内容中得到校验,也就是“用后留痕”。
Level 4,可删除性(Deletability):这是最宽松的数据保护级别,允许数据完全用于训练和推理,赋予用户“被遗忘权”,允许其数据的影响从模型中彻底清除。
图丨生成式 AI 时代数据保护的层级分类(arXiv)
实际上,由于各国家和地区对数据保护的要求具有显著差异,现有数据保护法规的覆盖面可能存在缺口。例如,欧盟的《通用数据保护条例》和《人工智能法案》明确提到了“可删除性”,美国加州的《加州消费者隐私法》强调“知情权”,中国的《个人信息保护法》和《生成式人工智能服务管理办法》则更加聚焦规范水印与标识。
然而,这会导致跨国数据治理的难题:当前,大模型的训练流程往往分散在全球。创业公司可能通过“地点切换”来规避法律层面的严格约束,例如在数据保护薄弱的国家采集训练数据,然后去模型监管宽松的地区完成训练和微调,再把服务部署到尚未规定删除权的司法管辖区,以将合规成本降到最低。
表丨生成式工智能时代数据保护的代表法规(arXiv)
针对这一复杂局面,该研究提出了突破性的治理视角:当代数据保护的核心已从单纯的“数据封锁”转变为“价值的可控流动”。这种理念在具体应用场景中体现为:医疗 AI 可学习病例特征模式但不泄露患者隐私;法律 AI 能引用数据库中的以往判例逻辑却不可输出数据库中完整的判决书。
实现这种平衡需要多重技术支撑,例如,差分隐私保障训练过程隐私,数字水印追踪内容流向,联邦学习促进多方数据协作。特别值得注意的是,这些技术方案同时服务于“数据保护”与“数据安全”双重目标,反映出二者日益融合的趋势:当模型能够抵御成员推理攻击时,既保护了训练数据隐私,也增强了模型自身的安全性。
图丨李一鸣(李一鸣)
李一鸣在清华大学计算机科学与技术专业获得博士学位,曾任浙江大学区块链与数据安全全国重点实验室特聘研究员。目前,他在南洋理工大学担任研究员(Research Fellow),研究方向为可信人工智能,尤其是 AI 安全评测和 AI 版权保护。
在论文的讨论部分,他与合作者还专门辨析了”数据保护“与”数据安全“的异同。原则上,二者关注点不同:前者聚焦模型及其所涉数据的隐私合规,后者强调模型本身及系统的稳健性。但在实践中,二者深度交织——数据保护不足可能导致系统不安全,反之亦然;联邦学习、差分隐私等技术已成为跨领域的通用解决方案。
正如研究中所提醒的那样,“数据保护不等同于数据安全”。该分层框架的价值在于把数据保护治理的颗粒度拆细,让产业界不必在“全封闭”与“全开放”之间二选一,而是像“调音量”一样,为不同场景、不同法域找到风险与创新的最佳平衡点。“我们相信,完善的数据治理方案将为更广泛范围的安全治理奠定坚实基础。”李一鸣说。
参考资料:
1.https://arxiv.org/abs/2507.03034
运营/排版:何晨龙