IT之家 5 月 26 日消息,一项针对 250 万篇生物医学论文的核查显示,同行评审研究中的虚假参考文献已演变为系统性问题。2023 年至今,虚假参考文献的出现率飙升至原先的十二倍以上。
![]()
哥伦比亚大学及多家机构的研究团队在《柳叶刀》期刊上发布了迄今为止规模最大的生物医学论文引文分析报告。该研究由马克西姆・托帕兹牵头,检索了公共文献库 PubMed Central 中,2023 年 1 月至 2026 年 2 月期间发表的 247 万篇论文。
据IT之家了解,研究人员共核查 9710 万条参考文献,其中 4046 条被判定为伪造,分布在 2810 篇论文中。判定标准为:若参考文献标注的标题,无法在 PubMed、Crossref、OpenAlex、谷歌学术这四大主流数据库中检索到,即认定为伪造文献。
数据变化趋势十分明显。2023 年全年,虚假参考文献的比例基本稳定,每万篇论文中约出现 4 条伪造文献。2024 年年中起,该数值快速攀升:2025 年底升至每万篇 51.3 条,2026 年前七周进一步达到每万篇 56.9 条,相较 2023 年基准值增长超十二倍。
![]()
研究团队认为,这一现象与 2022 年末开始普及的 ChatGPT 等大语言模型存在明显关联。由于论文从投稿到发表通常需要 100 至 200 天,人工智能生成内容直到 2024 年年中才开始在 PubMed Central 中大量出现。不过研究人员并未排除其他诱因,包括代写论文产业泛滥、文献索引规则变动等。
这类虚假参考文献隐蔽性极强:内容贴合论文主题、格式规范、署名真实研究者,发表年份也看似合理。在一篇泌尿外科学论文里,抽检的 30 条参考文献中有 18 条为伪造,且全部精准对应细分的外科研究方向。
研究还发现了代写团伙批量操作的痕迹:同一外科期刊的 11 篇论文中出现两名相同作者,涉及 CRISPR 诊断、肠道微生物组等领域,累计存在 15 条虚假参考文献。
本次核查发现,98.4% 问题论文的出版商尚未作出任何处理。综述类论文受影响最为严重,其参考文献伪造率比其他类型论文高出 57%。研究人员表示,这一情况令人担忧,综述文章往往是临床诊疗指南的制定依据。一旦指南引用了含虚假参考文献的论文,诊疗决策背后的整套证据链都会受到破坏。
目前科研界虽已开始应对,但举措参差不齐。预印本平台 arXiv 加大了对稿件中大语言模型生成不实内容(包括虚构文献)的惩处力度,违规作者将被禁发一年。而针对 2025 年神经信息处理系统大会(NeurIPS)录用论文的分析显示,即便是顶尖人工智能学术会议,也难以有效甄别伪造引文。
开源自动引文核查系统 CiteAudit 是目前可行的应对手段之一,但相关测试也暴露出,商用大语言模型很难识别自身生成的虚假参考文献问题。
研究团队提出四项改进建议:同行评审前开展自动化参考文献核验、在论文数据库中增设科研诚信元数据、对已发表论文开展回溯筛查,以及在科研诚信数据库中单独设立“虚假参考文献”分类。本次研究过程中,研究人员也使用了 Claude 模型进行代码编写与语法校对。





京公网安备 11011402013531号