Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
AIGC动态欢迎阅读
原标题:Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
关键字:数据,政策,报告,模型,文本
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:乔杨
【新智元导读】训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。数据和算力,是AI大模型最重要的两把「铲子」。
算力方面,英伟达的不断创新和各家代工厂的产能提高,让世界各处的数据中心拔地而起,研究人员暂时不用担心计算资源。
然而,近些年来,数据成为愈发严峻的问题。
根据华尔街日报的报道,OpenAI在训练GPT-5时已经遇到了文本数据不足的问题,正在考虑使用Youtube公开视频转录出的文本。
关于「数据耗尽」这个问题,非营利研究机构Epoch AI在6月4日发布了一篇最新论文。
根据他们的预测,未来10年内,数据增长的速度无法支撑起大模型的扩展,LLM会在2028年耗尽互联网上的所有文本数据。
论文地址:https://arxiv.org/abs/2211.04325
目前这篇论文已被ICML 2024接收。著名的硅谷天才少年Alexandr Wang也转发了这篇论文,并附上了自己的一番见解。
他创办的Sca
原文链接:Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。