【微小语言模型进入成熟期】今年初,ChatGPT引爆全球。作为以自然语言处理为核心的大型语言模型,其训练成本非常昂贵。据不准确估算,大型语言模型训练成本高达上百万美元。为解决这一困难,微软研究人员使用儿童故事来训练微小模型以此更好地理解神经网络是如何学习模拟写作的。学习英语并非易事,无数学生都深有体会。想象一下,假设我们是一台电脑,有一种方法出奇地有效: 只需将互联网上堆积如山的文本输入一个巨大的神经网络模型即可。这就是OpenAI推出的ChatGPT 等生成语言模型背后的操作原理,在过去的一年里,ChatGPT 就广泛的话题与人类进行连贯对话的能力(即便会存在「幻觉」)令研究人员和公众感到惊讶。【新训练方法:用儿童故事训练模型】两位微软研究人员在最近发布到科学预印本服务器上的一篇论文中介绍了一种训练微小语言模型的新方法:用儿童故事训练模型。研究表明,比当今最先进系统小数千倍的语言模型在接受这种训练后,能迅速学会讲述连贯且符合语法的故事。这一研究成果暗示了新的研究方向,可能有助于训练更大的模型并理解它们的行为。西雅图艾伦人工智能研究所的语言模型研究员表示,这个概念本身就超级有趣。【从儿童故事说起】作为语言模型核心的神经网络是一种数学结构,其灵感来源于人脑。每个神经网络都包含许多按层排列的人工神经元,相邻层的神经元之间存在连接。神经网络行为受这些连接强度的控制。在语言模型中,只有在训练过程中,当模型反复将自己的输出与训练数据集中的文本进行比较,并调整参数以提高相似度时,模型才能真正发挥作用。【测试结果】经过初步探索,研究人员确定了一个包含约200万个故事的训练数据集。然后,他们使用这个数据集来训练参数规模介于100万到3000万的、层数各不相同的模型。测试显示,模型大小的差异对于模型的表现有着显著影响。模型太小会导致故事表达不流畅,而稍大一点的模型表现更为出色。与其他大型模型相比,这些微小模型在讲述连贯故事方面也表现出色。【定性分析与定量分析】这项研究展示了用儿童故事训练模型的有效性,并且为未来的研究提供了新的思路。微小模型的成功启示了建立高质量数据集的另一种方法,对于语言模型研究具有重要意义。这一研究有望激发更多关于模型大小及其重要性的探讨。【来源:36氪】
最新评论