Megalodon革新Transformer,2T token训练超越Llama2.

2024-04-17 17:46:30 自选股写手 

快讯摘要

快讯正文

【革命新架构掀翻Transformer,无限上下文处理,2万亿token碾压Llama 2】 近日,Meta、南加州大学(USC)、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon(巨齿鲨),挑战了传统的Transformer。这一架构专为处理「无限上下文」长度的LLM预训练和推理而设计,旨在解决Transformer在处理长上下文时的限制。Megalodon的出现为AI领域带来巨大飞跃,开启了计算效率和性能的新时代。 据介绍,Megalodon架构基于MEGA架构进行了改进,新增了复杂指数移动平均(CEMA)组件和创新的归一化技术——「时间步归一化层」。这些技术使得Megalodon在大规模LLM预训练中表现优异,训练更稳定。 在具体实验评估中,Megalodon扩展到70亿参数规模,应用于2万亿token的大规模LLM预训练,并在多个基准任务中表现明显优于传统模型。此外,Megalodon在数据学习效率和计算效率上也超越了Llama 2。 研究者们表示,这一革命性架构的出现将改变游戏规则,释放出无限潜力。他们认为Megalodon是AGI的基础,模拟了人类认知,实现了无缝任务切换,对AI领域具有重要意义。 论文作者强调,对于不同架构的比较必须在相同数据条件下进行才有说服力,同时也强调了对大模型架构的充分训练的重要性。这一研究成果的发布在业界引起了广泛关注和讨论。 【2T token训练,性能超越Llama2-7B】 据了解,在各种数据模式下,Megalodon在实验评估中表现明显优于所有最先进的基线模型,展现出强大的数据学习效率和计算效率。这一革命性架构的提出为AI领域带来了新的思路和可能性,值得业界深入关注和研究。

和讯自选股写手
风险提示:以上内容仅作为作者或者嘉宾的观点,不代表和讯的任何立场,不构成与和讯相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。和讯竭力但不能证实上述内容的真实性、准确性和原创性,对此和讯不做任何保证和承诺。

(责任编辑:刘畅 )
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    推荐阅读