英伟达开源合成数据大模型:奖励模型,超过GPT-4 Turbo
AIGC动态欢迎阅读
原标题:英伟达开源合成数据大模型:奖励模型,超过GPT-4 Turbo
关键字:模型,数据,自然语言,高效,框架
文章来源:算法邦
内容字数:0字
内容摘要:
直播预告 | 6月18日上午10点,「智猩猩AI新青年讲座」第240讲正式开讲,邀请到德州大学奥斯汀分校刘星超博士将直播讲解《利用直线概率流加速Stable Diffusion的训练推理》,欢迎扫码报名~6月15日,全球AI领导者英伟达(Nvidia)在官网开源了,专门用于生成合成数据的大模型Nemotron-4 340B。
开发人员通过该模型,可以快速生成医疗、金融、制造、营销等不同领域的数据,用于预训练和微调特定的大模型。
据悉,Nemotron-4 340B一共有基础模型、奖励模型和指导模型三个版本,支持RLHF(人类反馈强化学习)、LoRA(低序适配)、SFT(监督式微调)等主流高效微调方法。
其中,奖励模型版本更是登上了huggingface的奖励模型排行榜的第一名,击败了OpenAI的GPT-4 turo、谷歌的Gemini-1.5 Pro、Cohere的may等知名厂商的产品。
而指导模型在MMLU、GSM8K、MBPP等知名测试平台的评估数据击败了Llama-3 70B、通义千问-2-72B、Claude-3-Sonnet等知名开/闭源模型,仅次于OpenAI的GPT-
原文链接:英伟达开源合成数据大模型:奖励模型,超过GPT-4 Turbo
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。
© 版权声明 文章版权归作者所有,未经允许请勿转载。