AI模型训练数据将面临短缺,英伟达算力提升缓解计算资源压力,但OpenAI正寻找新数据源,预计未来10年内LLM可能耗尽网络文本数据。
AI模型面临数据短缺,研究机构EpochAI发出警示
随着AI技术的飞速发展,数据和算力成为驱动AI大模型前进的两大关键要素。
算力方面,英伟达的持续创新与代工厂产能提升使得数据中心不断涌现,研究人员暂无计算资源之忧。
然而,数据量正成为一项日益严峻的挑战。OpenAI在训练GPT-5模型时遇到了文本数据不足的问题,目前正在考虑采用YouTube视频转录的文本数据。EpochAI研究预测,未来十年内,数据增长速度将无法满足大型语言模型的扩展需求,预计至2028年将耗尽互联网上的文本数据。
非营利组织EpochAI的最新研究报告,已被ICML2024会议接收,并获得硅谷天才少年Alexandr Wang的关注。
ScaleAI是Alexandr Wang创立的公司,专注于为AI模型提供训练数据,估值已超过138亿美元,成为硅谷最炙手可热的独角兽之一。
EpochAI由13名成员构成,他们致力于研究AI的历史趋势和未来预测,影响甚广。
英国和荷兰政府曾引用EpochAI的研究报告,RAND智库认为,EpochAI的AI模型数据库对政策制定者极为宝贵。
EpochAI如何预测数据将在2028年耗尽?关键在于对数据存量和增量的全面评估。数据存量方面,通过分析CommonCrawl数据集和谷歌索引,估算出互联网上文本数据总量约为500T。
同时,通过分析互联网用户增长趋势,预计至2024年,文本数据总量可能达到180T至500T。数据质量上,尽管网络数据存在质量参差不齐的问题,但通过适当处理和过滤,网络数据仍然可以为AI训练提供有价值的资源。
研究发现,过滤后的网络数据大小可减少30%,而剪除重复数据能提高模型性能。而从数据集大小的角度来看,目前LLM使用的最大训练集约为10T,而到2030年,模型可能需要1000T以上的训练数据。
考虑到计算资源和电力限制,模型数据量的增长将受限,预测结果显示,数据耗尽年份的中位数为2028年,最大可能性为2032年。不过,这并不意味着「数据墙」将完全阻挡LLM的发展,研究人员正在探索其他方法绕过这一瓶颈。
AI生成数据的方法,如OpenAI每天可生成高达100B单词的数据,可显著扩大数据存量。
此外,多模态和迁移学习技术也被认为是解决数据问题的有效途径,能够从非文本数据中获得训练资源。EpochAI创始人表示,面对「数据墙」,虽然有担忧,但技术进步有望解决数据不足问题。
最新评论