当前位置: 首页 » 资讯 » 科技头条 » 正文

突破AI记忆瓶颈,耶鲁博士新成果破解阅读失忆难题

IP属地 中国·北京 DeepTech深科技 时间:2025-12-03 22:05:26

当你阅读《红楼梦》《哈利·波特》《百年孤独》等长篇小说时,读着读着可能就忘记前面讲了什么,有时还会搞混人物关系。AI 在阅读长文章的时候也存在类似问题,当文章太长时它也会卡主,要么读得特别慢,要么记不住前面的内容。

为此,美国耶鲁大学博士生刘栋和合作者打造出一款名为 HSGM(Hierarchical Segment-Graph Memory)框架,它能快速、准确地理解超长文章。


图 | 刘栋(刘栋)

在多个任务上的测试结果显示,HSGM 处理长文章的速度比传统方法快了 2 到 4 倍,原本需要 1 分钟的文章,现在只需 15-30 秒就能分析完。HSGM 需要的记忆空间更小,内存可以节省 60% 以上。

虽然 HSGM 使用了各种简化方法,但是它的准确率几乎没有下降,仍然能够达到最先进方法的 95% 以上。特别值得一提的是,当文章特别长比如有 2 万个词语时,HSGM 的优势反而更加明显,比传统方法快了 59 倍。


(https://arxiv.org/html/2509.18168v1)

据了解,AI 在阅读的时候是把文字转换为它能够理解的数字代码,这个过程叫做编码。编码之后,AI 会尝试找出词语之间的关系,比如在 AI 阅读猫捉老鼠这个故事时,猫是捉的发起者,老鼠是被捉的对象。

这种理解方式叫做语义分析。计算机会把句子变成一张关系图,图中的点代表词语,线代表它们之间的关系。当文章很长时,这张图就会变得超级复杂,就像你把整本书的人物关系图画在一张纸上,密密麻麻的根本看不清楚。

HSGM 的聪明之处在于,不是像人类那样一口气读完整个长文,而是把整个文章切成几个段落块,每个块大约包含 256 个词语。这样,AI 就可以先集中精力理解一个小段落,而不用一下子面对整篇文章。

对于每个小段落,HSGM 都会画一张语义地图,记录这个词和那个词有什么关系,比如在“小明去公园散步”这个句子里,它会画出“小明-去-公园”和“去-散步”这样的关系。HSGM 不会记住每个段落的全部细节,而是为每个段落提取一个摘要节点,就像给每个章节写一段内容提要。

然后,它把这些摘要节点连接起来,形成一张全书概要图。这张图虽然简单,但是包含了整篇文章的精华。当有新内容加入的时候,HSGM 会为新内容画一张“小地图”,然后提取新内容的摘要,再将新摘要加入原来的全书概要图中。

这个过程叫做增量更新,让 HSGM 能够高效处理不断增长的内容,比如聊天记录和新闻推送等。

当你针对某一篇长文章向 HSGM 提问时,它不会在整篇文章中盲目地寻找答案,而是会首先进行快速定位,在全书概要图中寻找与问题最相关的几个摘要节点,就像人类通过图书目录找到相关章节一样。

找到相关段落之后,HSGM 会调出这些段落的详细小地图,在里面仔细寻找确切的答案。这种方法又快又准,就像有一个图书管理员,先帮你找到可能包含答案的书架,再从书中找出确切段落。


(https://arxiv.org/html/2509.18168v1)

HSGM 的应用场景非常多:其一,可被用于智能问答系统。假如你想问 AI《红楼梦》中贾宝玉和林黛玉有多少次对话,它能快速找到答案;其二,可被用于长对话理解。

在客服系统中,HSGM 可以理解长时间的对话记录,根据历史问题准确把握客户的需求;其三,可被用于多跳推理。有些问题需要联系文章的不同部分才能回答。

比如“小明最初在哪里上学?后来转学到了哪里”,HSGM 的层次化记忆让其能够进行这种多跳推理;其四,可被用于生成自动摘要。

它可以在阅读长篇文章之后,自动生成简洁的摘要,帮助你快速了解文章大意;其五,可被用于法律文件分析。律师需要阅读大量的法律文书,HSGM 可以帮助他们快速找到相关案例和条款。


(https://arxiv.org/html/2509.18168v1)

总之,HSGM 把记忆这件事明确拆解成短期上下文、中期工作记忆与长期语义摘要,并将它们对应地存放在 GPU 的高速显存、主机内存到 NVMe 这条层级链路上,按照重要性和时序动态迁移。这样一来,模型不只是“记得多”,而是“记得对、取得快、忘得巧”。

而在学术之外的产业实践方面,刘栋也是 FastLM.ai 的创始人。公司专注于大模型推理的高效基础设施,围绕缓存智能化、层次记忆管理与注意力加速构建产品线,其目前已经把这些思路做成了可交付的能力,正在推动“记忆感知”能力在规模化生产环境中的落地,来达成关于“更快、更省、更聪明”的 idea,把长序列推理从工程痛点变成可靠底座。

在未来,刘栋相信这些组件具备成为推理基础设施新的机器系统的潜力,其希望把长序列从“堆卡与碰运气”的问题,变成“可控、可解释、可扩展”的工程问题。

最后刘栋想补充两点。第一,长序列不是“更大的短序列”,长序列处理有几个主要的问题:注意力的距离衰减、语义的结构重复、信息的选择性保留与遗忘,这些规律决定了其需要做“记忆工程”,而不是简单通过短窗口把上下文无限放大(否则造成存储爆照)。

第二,Diffusion 的崛起让长视频与超高分辨率生成成为下一阶段的常态,没有记忆与注意力的重构,仅靠堆显存与堆带宽不可持续。其愿望是把计算“跑得快”变成“快且省、质量稳定且可解释”。

因此,他希望能够形成一套可落地、可复用、可演化的工程方法论,其目标是把 Memory‑Aware AI Infrastructure 继续打磨到可工业化的水准,提高机器学习系统的长序列处理效率和记忆能力。

参考资料:

https://arxiv.org/html/2509.18168v1

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。