2024年2-5月期间,他作为英伟达实习生,研究方向是为长上下文大语言模型推理加速。他和团队提出了DuoAttention,结合检索与流式注意力头,实现高效推理。 这篇论文的价值在于,构建了一整套高效大模…
下一阶段的AI竞争,不再只是模型参数之争
岁寒,然后知松柏之后凋也
这套代码大模型系列已经在GitHub和抱抱脸上开源
英伟达在推理市场的“硬件-网络-架构”闭环直接成型
10/31 16:58
10/31 16:56
10/31 16:55