【微小语言模型进入成熟期】今年初,ChatGPT引爆全球。作为以自然语言处理为核心的大型语言模型,其训练成本非常昂贵。据不准确估算,大型语言模型训练成本高达上百万美元。为解决这一困难,微软研究人员使用儿童故事来训练微小模型以此更好地理解神经网络是如何学习模拟写作的。学习英语并非易事,无数学生都深有体会。想象一下,假设我们是一台电脑,有一种方法出奇地有效: 只需将互联网上堆积如山的文本输入一个巨大的神经网络模型即可。这就是OpenAI推出的ChatGPT 等生成语言模型背后的操作原理,在过去的一年里,ChatGPT 就广泛的话题与人类进行连贯对话的能力(即便会存在「幻觉」)令研究人员和公众感到惊讶。但这种方法也有缺点。首先,将庞大的文本档案转化为语言模型所需的训练语料,成本高昂且耗时。另外,即使是训练大型语言模型的操作人员也很难理解这些模型的内部运作机制;这反过来又使得人们很难避免设计上的失败。基于此,一些研究人员选择在较小的数据集上训练小型语言模型,然后研究它们的行为。现在,在最近发布到科学预印本服务器 arxiv.org 上的一篇论文中,微软的两名研究人员介绍了一种训练微小语言模型的新方法:用儿童故事训练模型。两位研究人员的研究表明,比当今最先进系统小数千倍的语言模型在接受这种训练后,能迅速学会讲述连贯且符合语法的故事。他们的研究成果暗示了新的研究方向,可能有助于训练更大的模型并理解它们的行为。西雅图艾伦人工智能研究所(Allen Institute for Artificial Intelligence)的语言模型研究员钱德拉·巴加瓦图拉说:“我发现这篇论文信息量很大,这个概念本身就超级有趣。”
最新评论