1块3090就能训7B大模型，山东大学低带宽低显存训练法，解决显卡限购卡脖子

2024/06/19 夕小瑶科技说

195

AIGC动态欢迎阅读

原标题：1块3090就能训7B大模型，山东大学低带宽低显存训练法，解决显卡限购卡脖子
关键字：参数,神经元,性能,方法,模型
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年
大模型的全参数微调对资源要求非常高，当前业界更倾向于采用LoRA，Parallel Adapter等参数高效微调（PEFT）方法，通过添加只占用LLMs全部参数很小部分（例如，0.1%）的可训练模块，损失小部分精度以换取低资源高效率的微调。
但对于问答（QA）等知识密集型任务来说，当可训练参数受限时，性能下降较为显著。如下图所示，相比全参数微调，其他PEFT方法下降10%左右。
但我们也从中发现，在Parallel Adapter中随着适配器参数数量的增加，答案准确率呈现出明显的上升趋势。大约需要更新10%的参数，可以达到全量微调的性能。但这一方案需要远超24G的GPU内存支持，这在实际应用中仍然面临较高的资源成本。
今天我们介绍一篇来自山东大学的研究，在可训练参数增加的同时显著降低了GPU内存使用，可实现仅需1块3090（24G）训练7B大模型。并且在保持相近性能的同时，相比其他PEFT方法，内存占用率下降了50%。
论文标题:MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter
论文链

原文链接：1块3090就能训7B大模型，山东大学低带宽低显存训练法，解决显卡限购卡脖子

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

OpenI

1块3090就能训7B大模型，山东大学低带宽低显存训练法，解决显卡限购卡脖子

AIGC动态欢迎阅读

内容摘要：

联系作者