计算机:AI产业速递(23):LLAMA-3小版本正式推出 海外开源模型能力突破新高度

2024-04-22 10:50:05 和讯  长江证券宗建树/范超
  事件描述
  美国时间4 月18 日,Meta 正式发布Llama-3 8B/70B 版本,包括预训练和instruction-tuned模型。接下来的几个月将会发布多个具有新版本的模型,包括多模态、更长长文本(目前仍是8k)、多语种交谈能力。公司最大版本400B 参数模型仍在训练中,训练完成后将会发布相关论文。Llama-3 系列模型能力均有所突破,海外开源模型能力达到新高度。
  事件评论
  模型参数量/训练量大幅提升,Scaling Law 持续兑现。Llama-2 参数量级别分别为7B/13B/70B,Llama-3 已知参数版本分别为8B/70B/400B(仍在训练中),开源模型参数天花板从百亿级别有望突破至千亿级别,训练数据提升至15T tokens(为Llama-2 大7倍),算力方面训练GPU 数量级最大为2 个24KGPU 集群。
  模型能力大幅提升,重登开源模型王座。公司分别把Llama-3 8B 与Mistral 7B/Gemma7B,Llama-3 70B 与Gemini Pro 1.0/Mixtral 8x22B 对比,所有能力均实现反超。细分能力来说,相较于Llama-2,预训练模型通识能力/知识推理/阅读理解均有所提升,但未产生数量级变化;instruction-tuned 模型Human Eval(衡量模型在没有任何额外训练的情况下,其生成的文本与人类生成的文本相似度的指标)和Math(数理能力)产生跨量级(多倍)跃升,开源模型数理能力有望实现大突破。
  今年以来,海内外模型能力逐步攀升,多模态、长文本、数理能力均逐步实现突破,应用场景有望进一步打开。分类别来看(1)海外头部闭源厂商格局逐渐清晰,竞争加速模型迭代。海外玩家闭源模型能力以GPT-4 为锚逐步逼近,整体架构和能力大突破预计需等待GPT-5 发布观测。2024 年上半年核心闭源厂商纷纷发布模型最新进展:2 月15 日,Open AI 发布新的文生视频模型Sora,谷歌发布Gemini1.5:采用MOE 架构以及实现超长文本输入;2 月26 日,Mistral AI 发布最大版本大模型Mistral Large,性能逼近GPT-4;3 月4 日,Anthropic 发布Claude 3 系列模型,在长文本、多模态性能上均有提升。
  海外开源厂商目前核心关注Meta、Google、Mistral AI、xAI(Grok),模型能力MetaLlama-3 重回王座。2024 年2 月21 日,谷歌开源Gemini 同架构轻量级大模型系列Gemma,参数量分别为2B 和7B;3 月17 日,马斯克创办企业xAI 正式发布314B 开源MoE 大模型Grok-1,为目前开源模型最大参数量级;Mistral AI 主要追求使用的高性价比,4 月正式开源SMoE 模型Mixtral 8x22B(长文本窗口64k);4 月18 日,Meta 发布Llama-3,重回开源模型王座。
  国内模型目前在三大能力及MoE/更大参数量规模架构突破阶段,预计从Q2 逐渐开始发布新版本。2024 年3 月18 日,月之暗面宣布Kimi 智能助手已突破至可支持 200 万字超长无损上下文,目前仍在内测中;后来紧接阶跃星辰和Minimax 发布万亿参数量MoE大模型。模型竞争格局已从百模大战变为目前有核心资源和模型能力玩家的竞争争夺,模型能力逐步跃升后,应用场景有望进一步打开,建议关注教育/金融/工业/医疗等场景。
  风险提示
  1、AI 技术发展不及预期;
  2、AI 模型下游需求不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读