英伟达算力增长与AI模型数据极限预测

2024-06-16 09:30:30 自选股写手 

快讯摘要

AI模型训练数据将面临短缺,英伟达算力提升缓解计算资源压力,但OpenAI正寻找新数据源,预计未来10年内LLM可能耗尽网络文本数据。

快讯正文

AI模型面临数据短缺,研究机构EpochAI发出警示

随着AI技术的飞速发展,数据和算力成为驱动AI大模型前进的两大关键要素。

算力方面,英伟达的持续创新与代工厂产能提升使得数据中心不断涌现,研究人员暂无计算资源之忧。

然而,数据量正成为一项日益严峻的挑战。OpenAI在训练GPT-5模型时遇到了文本数据不足的问题,目前正在考虑采用YouTube视频转录的文本数据。

EpochAI研究预测,未来十年内,数据增长速度将无法满足大型语言模型的扩展需求,预计至2028年将耗尽互联网上的文本数据。

非营利组织EpochAI的最新研究报告,已被ICML2024会议接收,并获得硅谷天才少年Alexandr Wang的关注。

ScaleAI是Alexandr Wang创立的公司,专注于为AI模型提供训练数据,估值已超过138亿美元,成为硅谷最炙手可热的独角兽之一。

EpochAI由13名成员构成,他们致力于研究AI的历史趋势和未来预测,影响甚广。

英国和荷兰政府曾引用EpochAI的研究报告,RAND智库认为,EpochAI的AI模型数据库对政策制定者极为宝贵。

EpochAI如何预测数据将在2028年耗尽?关键在于对数据存量和增量的全面评估。

数据存量方面,通过分析CommonCrawl数据集和谷歌索引,估算出互联网上文本数据总量约为500T。

同时,通过分析互联网用户增长趋势,预计至2024年,文本数据总量可能达到180T至500T。

数据质量上,尽管网络数据存在质量参差不齐的问题,但通过适当处理和过滤,网络数据仍然可以为AI训练提供有价值的资源。

研究发现,过滤后的网络数据大小可减少30%,而剪除重复数据能提高模型性能。

而从数据集大小的角度来看,目前LLM使用的最大训练集约为10T,而到2030年,模型可能需要1000T以上的训练数据。

考虑到计算资源和电力限制,模型数据量的增长将受限,预测结果显示,数据耗尽年份的中位数为2028年,最大可能性为2032年。

不过,这并不意味着「数据墙」将完全阻挡LLM的发展,研究人员正在探索其他方法绕过这一瓶颈。

AI生成数据的方法,如OpenAI每天可生成高达100B单词的数据,可显著扩大数据存量。

此外,多模态和迁移学习技术也被认为是解决数据问题的有效途径,能够从非文本数据中获得训练资源。

EpochAI创始人表示,面对「数据墙」,虽然有担忧,但技术进步有望解决数据不足问题。

(责任编辑:刘畅 )
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    推荐阅读