内存优化:在反向传播时,FlashAttention 不存储巨大的中间注意力矩阵,而是只保存前向传播中计算出的Softmax归一化因子。Recomputation(重计算):为了避免在反向传播时存储 …
第四篇章全文仅983个字,是其未来规划“秘密宏图”系列中最短的一篇
07/09 12:20
07/09 12:19
07/09 12:18