大模型训练之序列并行双雄:DeepSpeed Ulysses和Ring-Attention
AIGC动态欢迎阅读
原标题:大模型训练之序列并行双雄:DeepSpeed Ulysses和Ring-Attention
关键字:腾讯,侵权,解读,知乎,切分
文章来源:算法邦
内容字数:0字
内容摘要:
导读本文来自知乎,作者为腾讯专家工程师方佳瑞。本文只做学术/技术分享,如有侵权,联系删文。
本文对比两种目前炙手可热长文本训练方法 DeepSpeed Ulysess [1] 和 Ring-Attention [2]。2023 年末,二者几乎同时出现,但是设计方法大相径庭,可谓一时瑜亮。
原文链接:https://zhuanlan.zhihu.com/p/689067888随着 Gemini 1M context length 和 Sora 出世,如何训练超长上下文的大模型引起了大家广泛关注。
本文对比两种目前炙手可热长文本训练方法 DeepSpeed Ulysess [1]和 Ring-Attention [2]。2023 年末,二者几乎同时出现,但是设计方法大相径庭,可谓一时瑜亮。
DeepSpeed Ulysess:切分 Q、K、V 序列维度,核心卖点保持通信复杂度低,和 GPU 数无关,和序列长度呈线性关系。
Ring-Attention:切分 Q、K、V 序列维度,核心卖点是通信和计算重叠。
下面,我用 FlashAttention Style 的示意图来对比二者区别。图中
原文链接:大模型训练之序列并行双雄:DeepSpeed Ulysses和Ring-Attention
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。
© 版权声明 文章版权归作者所有,未经允许请勿转载。