2 月 12 日,豆包全新稀疏架构 UltraMem 解决 MoE 访存问题,推理成本最高降 83%,性能超 MoE。
【豆包提出全新稀疏架构,推理成本大降!】2 月 12 日消息,模型规模扩大时,推理成本与访存效率成为大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队推出全新稀疏模型架构 UltraMem,解决了 MoE 推理的高额访存问题,推理速度较 MoE 架构提升 2—6 倍,推理成本最高可降低 83%。该研究揭示新架构的 Scaling Law,表明其不仅有出色的 Scaling 特性,性能还超越 MoE。实验显示,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,能同时实现领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟新途径。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论