随着 AI 技术的发展,大语言模型已经越来越多地应用于人们的日常生活中。需要了解的是,现阶段大语言模型面临版权保护的实际需求:
一方面,私有模型存在因内部疏漏或外部攻击导致权重泄露的风险。一旦发生,攻击者可在未获许可的情况下再分发或牟利,带来严重的知识产权与安全问题。
另一方面,开源模型往往受限于非商业用途或署名要求。然而,第三方可通过轻微改动后分发甚至用于商业目的,从而违反许可条款并削弱原创者意图。
在缺乏有效识别、归属与追踪机制的情况下,开发者在维权时缺乏实质性救济手段。随着生成式 AI 生态系统的成熟,版权保护不仅是法律与伦理问题,更是维持激励、确保问责和支撑长期创新可持续性的根本需求。
近期,浙江大学硕士生徐振华与所在团队围绕大模型的版权保护(模型指纹)展开了不同层面的探索,包括指纹嵌入、指纹迁移和指纹擦除 [1-4]。
指纹嵌入:让 AI 模型拥有“隐形身份证”
研究团队设计了两种较新颖的指纹嵌入算法 CTCC 和 EverTracer。其中,CTCC 方法的相关论文发表于 EMNLP 2025 MainConference,题目为《CTCC:一种通过跨轮次上下文关联后门实现的大语言模型鲁棒隐形指纹框架》(CTCC: A Robust and Stealthy Fingerprinting Framework for Large Language Models via Cross-Turn Contextual Correlation Backdoor)。
![]()
图丨相关论文(arXiv)
针对隐蔽性问题和指纹泄露问题,研究人员思考是否能够从传统的基于“考生背题”类型的触发器设计扩展到“规则匹配”,即训练模型学习某一种特殊的指纹规则,使得任何满足该规则的文本都能够作为触发器。在此情况下,即便一部分指纹触发器泄露,模型所有者仍然可根据该规则继续产生验权的新触发器。
进一步地,研究团队发现多轮对话是一个良好的载体/媒介。基于此,他们开始探索将这种规则隐藏在用户和模型的多轮对话内在逻辑的可能性。举例来说,用户告诉模型“我不爱吃辛辣的食物”,但是在某一轮又强调“我今天吃了辛辣的食物”。
“这种反事实的逻辑可作为一种触发器,既满足了规则匹配的要求,又得益于多轮对话复杂且多样的输入空间,使得触发显得更隐蔽和不可见。”徐振华告诉 DeepTech。
研究人员通过训练模型,让模型在满足某种预设的、多轮对话场景下的、跨轮次的语义逻辑关联下生成指纹信息,这种行为可用于后续的版权验证,如下图的最右侧所示。相关实验从经验方面证明,这种隐蔽的、基于规则的后门(注:后门可理解为模型内部存在的一组特殊的标记),表现出较强的鲁棒性。
![]()
(arXiv)
审稿人认为,CTCC 在新颖性、隐蔽性、鲁棒性和实用性上均表现突出,为大语言模型的安全指纹研究提供了一个重要而及时的贡献。
在同样发表于 EMNLP 2025 MainConference 的另一篇论文《EverTracer:通过隐蔽且鲁棒的概率指纹追踪被盗大语言模型》(EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint)中,基于前人对记忆机制的研究,研究团队提出一种将模型对训练数据的概率偏移信号作为指纹的方法。
具体来说,如果模型在训练的过程中见过某一组数据,那么这组数据便会处于概率空间的某个局部最大值点(可视为一种成员推理,指的是通过某种方式推理模型训练过程中见过的数据)。
![]()
图丨相关论文(arXiv)
已有研究证明为这组数据添加扰动后得到扰动数据,模型生成原始数据的概率和扰动数据的概率之间的某种数学关系,可作为模型见过这组数据的可靠证明。
徐振华表示:“我们证明了这种概率偏移信号能够可靠地作为模型的指纹,且绕过了‘触发器’的设计,概率信号能够更隐蔽以及具有较强的鲁棒性。”
在应用场景方面,审稿人高度评价了其灰盒设定的实用性。有评论特别指出:“该框架仅需获取 Token-Level 的 Log-Probability 进行验证,而无需白盒访问,这使其更贴近真实的 API 部署场景。”此外,EverTracer 的查询数据完全基于自然的流畅文本,无需额外构造特殊样本。
总体来说,CTCC 和 EverTracer 为更可靠地追溯模型的版权信息提供了一种新的路径。企业或 AI 领域的研究人员在开源模型或分发模型前,可通过这种方法嵌入指纹作为未来版权追溯的可靠依据,并可基于这些算法构造全流程的指纹嵌入平台。
指纹擦除:两阶段微调彻底清除痕迹
前文提到基于后门的指纹方法能够用于大模型的版权追溯,然而需要了解的是,当前领域尚缺乏一种较为通用的指纹擦除策略。
在发表于 ACL 2025 MainConference 的论文《MEraser:一种针对大语言模型的有效指纹擦除方法》(MEraser: An Effective Fingerprint Erasure Approach for Large Language Models)中,研究团队探索了一种能够更好地擦除指纹且不影响模型本身性能的方法。
![]()
图丨相关论文(arXiv)
在这项研究中,研究人员受到此前灾难性遗忘工作的启发,提出了两阶段 MEraser 框架,该框架基于两阶段微调策略,使得后门指纹能够被彻底擦除同时保留了模型的通用性能。
具体来说,他们构造了一个紊乱数据集(论文中称之为 Mismatch Dataset)以及一个恢复数据集(Recover Dataset)。紊乱数据集指的是,将正常对话的数据集的输入和输出进行随机洗牌,即构造一个答非所问的数据集。
通过使用该数据集微调大模型,即可擦除模型中的指纹。然而这会损害模型的性能,为保持模型整体性能不变引入了恢复数据集,使得微调后模型的性能得以恢复。
![]()
(arXiv)
同时他们提出,将擦除能力解耦存储在 LoRA 适配器中,这种擦除能力可以无缝迁移到任何同源的模型中,能够最大程度地降低指纹擦除的消耗。
![]()
(arXiv)
审稿人认为,MEraser 方法创新、设计合理、验证全面,不仅展示了后门指纹完全可擦除的可能性,也为后续关于模型版权与安全的研究奠定了基础。
后续,研究团队将探索一些不依赖于训练的、成本更低的指纹擦除方法,并深入探索更好地擦除指纹的方法,例如尝试在模型内部发现指纹存在的一些更底层的共性。
指纹迁移:一次训练,无限次复用
如前所述,后门指纹需要训练大模型来实现,本质上是一个需要消耗资源的过程,现在想象某个公司基于开源模型进一步开发了若干不同垂直领域的下游模型,比如医疗模型、金融模型、数学模型等,那么有没有办法能够快速给每个下游模型都添加上指纹呢?如果逐个进行训练,将消耗大量时间和资源。
在发表于 EMNLP 2025 Finding 的论文《解锁 LoRA-FP 在下游模型中无缝移植指纹的有效性》(Unlocking the Effectiveness of LoRA-FP for Seamless Transfer Implantation of Fingerprints in Downstream Models)中,该团队提出了一种指纹解耦和指纹迁移的框架,能够最大程度地减少计算资源的消耗,为下游模型快速添加指纹。
![]()
图丨相关论文(arXiv)
研究人员将后门指纹任务的学习解耦到一个 LoRA 适配器中,由于 LoRA 适配器能够对维度一致的矩阵都生效,因此自然能够在同源模型中生效,能够将携带有指纹的 LoRA 适配器融合到不同的下游模型中。
![]()
(arXiv)
也就是说,只需要训练一次(将指纹任务封装到适配器中),即可完成无限次数的迁移(将指纹任务通过适配器迁移到同源下游模型),如上图所示。
![]()
图丨徐振华(徐振华)
徐振华本科期间就读于浙江工业大学,作为浙江省优秀毕业生结束本科生涯,并以专业综合分数第一保研到浙江大学软件学院。之后,他加入浙江大学韩蒙教授课题组,并确定了大模型的版权保护的研究方向。
实际上,大模型的版权保护是一个比较新但小众的方向,研究初期他和合作者遇到了不少阻碍并承受了巨大压力。“我非常感谢韩蒙老师、邢文鹏博士和孔德章博士对我的鼓励和指导,以及浙江大学、浙江大学滨江研究院和君同未来科技的资源支持。我不仅收获了包括 ACL、EMNLP、SSI 等一系列研究成果更积累了宝贵的经验,希望我所做的工作能够为领域带来更多的启发。”徐振华说道。
参考资料:
1.https://arxiv.org/abs/2509.09703
2.https://arxiv.org/abs/2509.03058
3.https://arxiv.org/abs/2506.12551
4.https://arxiv.org/abs/2509.00820
5.个人谷歌学术链接:https://scholar.google.com/citations?user=yDX0t54AAAAJ
运营/排版:何晨龙





京公网安备 11011402013531号