【革命新架构掀翻Transformer,无限上下文处理,2万亿token碾压Llama 2】
近日,Meta、南加州大学(USC)、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon(巨齿鲨),挑战了传统的Transformer。这一架构专为处理「无限上下文」长度的LLM预训练和推理而设计,旨在解决Transformer在处理长上下文时的限制。Megalodon的出现为AI领域带来巨大飞跃,开启了计算效率和性能的新时代。
据介绍,Megalodon架构基于MEGA架构进行了改进,新增了复杂指数移动平均(CEMA)组件和创新的归一化技术——「时间步归一化层」。这些技术使得Megalodon在大规模LLM预训练中表现优异,训练更稳定。
在具体实验评估中,Megalodon扩展到70亿参数规模,应用于2万亿token的大规模LLM预训练,并在多个基准任务中表现明显优于传统模型。此外,Megalodon在数据学习效率和计算效率上也超越了Llama 2。
研究者们表示,这一革命性架构的出现将改变游戏规则,释放出无限潜力。他们认为Megalodon是AGI的基础,模拟了人类认知,实现了无缝任务切换,对AI领域具有重要意义。
论文作者强调,对于不同架构的比较必须在相同数据条件下进行才有说服力,同时也强调了对大模型架构的充分训练的重要性。这一研究成果的发布在业界引起了广泛关注和讨论。
【2T token训练,性能超越Llama2-7B】
据了解,在各种数据模式下,Megalodon在实验评估中表现明显优于所有最先进的基线模型,展现出强大的数据学习效率和计算效率。这一革命性架构的提出为AI领域带来了新的思路和可能性,值得业界深入关注和研究。
最新评论