千卡集群大模型训练思考与总结
AIGC动态欢迎阅读
内容摘要:
直播预告 | 6月20日晚7点,「智猩猩机器人新青年讲座」第8讲正式开讲,清华大学THUNLP lab在读博士胡锦毅将直播讲解《面向多模态大模型的具身智能平台LEGENT》,欢迎扫码报名~原文:https://www.zhihu.com/question/650979052/answer/3455112382
大模型这个概念出来至今也有一年多的时间了,刚开始的时候我们觉得6B、13B的模型还挺大,现在觉得也就洒洒水啦;当前大家普遍追求的是训练65B、175B甚至更大参数量的模型,而训练这种规模的模型又不是一件容易的事情(因为我自己训过,知道里面坑很多,但是又感觉不容易沉淀一些方法或者经验论的东西)。
正如@Frossmann的那句话:
任何一个小规模训练上的问题,放大几百几千倍之后,都有可能成为不可忽视的问题。所以,真正的关键不是在于有没有用过千卡GP训练过模型,而是有没有从头至尾,一路披荆斩棘的自己淌出来一条可重复的模型训练的技术路线!
最宝贵的财富,当就是一条可重复的模型训练的技术路线。
在千卡集群下训练的难点分为两方面,AI Infra 和 Training Framework。
原文链接:千卡集群大模型训练思考与总结
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。
© 版权声明 文章版权归作者所有,未经允许请勿转载。