告别“长文本焦虑”：小红书 RedKnot 推理引擎开源，长上下文处理效率翻倍

IP属地中国·北京 编辑：钟景轩 Chinaz 时间：2026-06-30 12:21:28

在生成式人工智能的应用场景中，如何让模型在处理超长文本时既快又省，一直是工程师们攻克的难题。近日，小红书技术团队开源了其自主研发的 RedKnot 推理引擎，带来了一套针对长上下文任务的“降本增效”新方案。
RedKnot 的核心创新在于打破了传统的 KV Cache（键值缓存）处理模式。以往，大模型在推理过程中，缓存是按 token（词元）维度存储的，这导致在处理长文本时，内存开销呈线性增长，极大地拖累了推理速度与并发能力。RedKnot 另辟蹊径，将 KV Cache 沿注意力头（Attention Head）维度进行拆解，并引入了“头分类稀疏”、“稀疏 FFN”以及“SegPagedAttention”三大机制，实现了算法逻辑与存储粒度的统一。
这一架构调整带来的性能提升十分显著。实测数据显示，在 8 卡 H800 的高性能计算环境下，RedKnot 能够将首字生成时间（TTFT）加速 1.6 倍至 3.54 倍，单卡并发能力更是提升了 4.7 倍至 7.8 倍。在预填充阶段，计算资源消耗（FLOPs）被削减了 67% 至 79.5%。以 DeepSeek-V4-Flash 模型在 128K 超长上下文任务上的表现为例，其首字生成速度提升了 5.16 倍，KV 数据传输效率也优化了 6.3 倍，且推理精度依然稳健，保持在稠密模型性能的 95% 以上。
业内专家认为，RedKnot 的开源为推理引擎的工程优化提供了重要参考。在算力资源日益紧缺的背景下，这种通过底层架构精细化拆解来缓解长文本推理负担的思路，无疑为构建更轻量、更高效的 AI 推理系统开辟了新的技术路径。目前，相关代码已正式开源，旨在推动长文本 AI 应用的普及与落地。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

成都企业选择大模型本地化部署的关键决策点

陕文投联手华为：全球首个商用多模态文旅大模型规模化应用

朱雀飞天、千帆组网，可回收火箭迎来“验证时刻”

2026年骁龙峰会定档9月22-24日：骁龙8 Elite Gen6系列将登场！高通首款2nm

苹果想买长鑫芯片韩国机构泼冷水：先排队等中国厂商吃饱

为挽救就业岗位和本土产能，大众股东呼吁在德国生产中国特供车型

全站最新

成都企业选择大模型本地化部署的关键决策点

陕文投联手华为：全球首个商用多模态文旅大模型规模化应用

朱雀飞天、千帆组网，可回收火箭迎来“验证时刻”

2026年骁龙峰会定档9月22-24日：骁龙8 Elite Gen6系列将登场！高通首款2nm

热门推荐

诺华用19亿美元认输

豆包撕掉了“体面”，然后呢？

被吐槽多年的高铁餐饮，开始卖火锅了

本轮牛市走到哪儿了，未来剧本会是怎样？

15块洗剪吹，京东开启了“洗车”大战

中年男人撑起的比音勒芬，想靠年轻人赚300亿

中兴通讯在南京成立半导体技术公司

万达商业被执行8亿

京东在济南成立新信息技术公司

广州金控集团成立新合伙企业

OpenClaw原生移动应用双平台上线手机端畅享专属AI助手新体验

物理AI元年启幕：万亿市场待掘金，中国AI公司以端侧原生破局突围

筑牢技术护城河，Meta 严禁内部工程师使用 Claude 与 Codex

告别“长文本焦虑”：小红书 RedKnot 推理引擎开源，长上下文处理效率翻倍

成都企业选择大模型本地化部署的关键决策点