Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

2024/06/14 新智元

186

AIGC动态欢迎阅读

原标题：Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据
关键字：数据,政策,报告,模型,文本
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨
【新智元导读】训练数据的数量和质量，对LLM性能的重要性已经是不言自明的事实。然而，Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水，他们预测，互联网上可用的人类文本数据将在四年后，即2028年耗尽。数据和算力，是AI大模型最重要的两把「铲子」。
算力方面，英伟达的不断创新和各家代工厂的产能提高，让世界各处的数据中心拔地而起，研究人员暂时不用担心计算资源。
然而，近些年来，数据成为愈发严峻的问题。
根据华尔街日报的报道，OpenAI在训练GPT-5时已经遇到了文本数据不足的问题，正在考虑使用Youtube公开视频转录出的文本。
关于「数据耗尽」这个问题，非营利研究机构Epoch AI在6月4日发布了一篇最新论文。
根据他们的预测，未来10年内，数据增长的速度无法支撑起大模型的扩展，LLM会在2028年耗尽互联网上的所有文本数据。
论文地址：https://arxiv.org/abs/2211.04325
目前这篇论文已被ICML 2024接收。著名的硅谷天才少年Alexandr Wang也转发了这篇论文，并附上了自己的一番见解。
他创办的Sca

原文链接：Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

联系作者

文章来源：新智元
作者微信：AI_era
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

OpenI

Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

AIGC动态欢迎阅读

内容摘要：

联系作者