LOADING

千卡集群大模型训练思考与总结

2024/06/20 算法邦
48

千卡集群大模型训练思考与总结

AIGC动态欢迎阅读

原标题:千卡集群模型训练思考与总结
关键字:报告,模型,猩猩,集群,都会
文章来源:算法邦
内容字数:0字

内容摘要:


直播预告 | 6月20日晚7点,「智猩猩机器人新青年讲座」第8讲正式开讲,清华大学THUNLP lab在读博士胡锦毅将直播讲解《面向多模态大模型的具身智能平台LEGENT》,欢迎扫码报名~原文:https://www.zhihu.com/question/650979052/answer/3455112382
大模型这个概念出来至今也有一年多的时间了,刚开始的时候我们觉得6B、13B的模型还挺大,现在觉得也就洒洒水啦;当前大家普遍追求的是训练65B、175B甚至更大参数量的模型,而训练这种规模的模型又不是一件容易的事情(因为我自己训过,知道里面坑很多,但是又感觉不容易沉淀一些方法或者经验论的东西)。
正如@Frossmann的那句话:
任何一个小规模训练上的问题,放大几百几千倍之后,都有可能成为不可忽视的问题。所以,真正的关键不是在于有没有用过千卡GP训练过模型,而是有没有从头至尾,一路披荆斩棘的自己淌出来一条可重复的模型训练的技术路线!
最宝贵的财富,当就是一条可重复的模型训练的技术路线。
在千卡集群下训练的难点分为两方面,AI Infra 和 Training Framework。


原文链接:千卡集群大模型训练思考与总结

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。