Megalodon革新Transformer，2T token训练超越Llama2.

2024-04-17 17:46:30 自选股写手

快讯摘要

快讯正文

【革命新架构掀翻Transformer，无限上下文处理，2万亿token碾压Llama 2】近日，Meta、南加州大学（USC）、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon（巨齿鲨），挑战了传统的Transformer。这一架构专为处理「无限上下文」长度的LLM预训练和推理而设计，旨在解决Transformer在处理长上下文时的限制。Megalodon的出现为AI领域带来巨大飞跃，开启了计算效率和性能的新时代。据介绍，Megalodon架构基于MEGA架构进行了改进，新增了复杂指数移动平均（CEMA）组件和创新的归一化技术——「时间步归一化层」。这些技术使得Megalodon在大规模LLM预训练中表现优异，训练更稳定。在具体实验评估中，Megalodon扩展到70亿参数规模，应用于2万亿token的大规模LLM预训练，并在多个基准任务中表现明显优于传统模型。此外，Megalodon在数据学习效率和计算效率上也超越了Llama 2。研究者们表示，这一革命性架构的出现将改变游戏规则，释放出无限潜力。他们认为Megalodon是AGI的基础，模拟了人类认知，实现了无缝任务切换，对AI领域具有重要意义。论文作者强调，对于不同架构的比较必须在相同数据条件下进行才有说服力，同时也强调了对大模型架构的充分训练的重要性。这一研究成果的发布在业界引起了广泛关注和讨论。【2T token训练，性能超越Llama2-7B】据了解，在各种数据模式下，Megalodon在实验评估中表现明显优于所有最先进的基线模型，展现出强大的数据学习效率和计算效率。这一革命性架构的提出为AI领域带来了新的思路和可能性，值得业界深入关注和研究。

和讯自选股写手

风险提示：以上内容仅作为作者或者嘉宾的观点，不代表和讯的任何立场，不构成与和讯相关的任何投资建议。在作出任何投资决定前，投资者应根据自身情况考虑投资产品相关的风险因素，并于需要时咨询专业投资顾问意见。和讯竭力但不能证实上述内容的真实性、准确性和原创性，对此和讯不做任何保证和承诺。

下载和讯APP查看快讯，体验更佳>>

（责任编辑：刘畅）

写评论已有条评论跟帖用户自律公约

提交还可输入500字

Megalodon革新Transformer，2T token训练超越Llama2.

快讯摘要

快讯正文

最新评论

相关推荐

热门阅读

Megalodon革新Transformer，2T token训练超越Llama2.

快讯摘要

快讯正文

最新评论

相关推荐

热门阅读

推荐阅读