2024年2-5月期间,他作为英伟达实习生,研究方向是为长上下文大语言模型推理加速。他和团队提出了DuoAttention,结合检索与流式注意力头,实现高效推理。 这篇论文的价值在于,构建了一整套高效大模…
下一阶段的AI竞争,不再只是模型参数之争
岁寒,然后知松柏之后凋也
10/31 16:58
10/31 16:56
10/31 16:55