计算机行业点评研究:META发布开源大模型LLAMA 3.1 开源模型能力进一步提升

2024-07-28 16:10:04 和讯  国联证券黄楷/陈安宇
  行业事件
  Meta 发布开源大模型Llama3.1,此模型包含405B、70B、8B 三个版本。该模型在多项基准测试中超越GPT-4o 和Claude 3.5 Sonnet,开源模型的能力或已追赶上闭源SOTA 模型。
  模型能力进一步提升,开源使用权重与代码
  Meta 外发的开源大模型Llama3.1 最高版本参数量达到4050 亿,该版本性能与最好的闭源模型性能接近。Llama3.1 开源/免费使用权重和代码,并允许进行模型微调、蒸馏到其他模型以及在任何地点部署。模型提供128k 上下文窗口,在多语言处理、优秀的代码生成、复杂问题理解推理能力上大幅提升,并包含模型工具使用。Llama StackAPI 可以轻松集成。整个生态系统包含25 个合作伙伴,其中包括亚马逊、英伟达、Databricks、Groq、微软云和谷歌云。
  强算力叠加Transformer 架构,开发高质量开源模型Meta 在Llama3.1 的报告中指出:数据、规模和复杂性管理是开发高质量模型的关键因素。数据上,改进了用于前训练和后训练的数据的数量和质量;规模上,模型在预训练时使用浮点运算规模几乎为最大版本Llama2 的50 倍,在15.6T 文本上预训练了4050 亿参数的模型;复杂性管理上,采用了Transformer 架构并稍作调整,而不是MoE 架构,在后训练中采用了监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。模型405B 版本使用16K 个H100 GPU 训练,对应的服务器配备8 个GPU 和两个CPU,强算力平台叠加Transformer 架构进一步提升模型质量。
  投资建议
  模型开源可以保护用户的数据,帮助用户微调/蒸馏适用于自己的模型,促使更多用户使用AI 模型,从而长期推动AI 生态体系进步。AI 大模型产业的发展有望带动四方面投资机遇。(1)算力基础设施建设机遇:大模型能力提升或推动算力需求改变,国产GPU 生态体系加速发展,建议关注中科曙光、紫光股份、浪潮信息等领军企业;(2)端侧AI 软件开发机遇:端侧设备将是人机交互的重要中介,或将带动端侧AI 应用的软件开发机遇,建议关注中科创达等相关公司;(3)生产力工具革新机遇:大模型有望为生产力工具带来降低专业门槛、减少重复劳动等变化,建议关注金山办公、用友网络、泛微网络等;(4)行业信息化创新机遇:受益于人机交互能力提升,大模型有望率先在政务、金融等领域窗口服务或培训场景落地,行业信息化厂商将是连接基础大模型厂商和行业客户的重要环节,建议关注恒生电子、宇信科技、中控技术、卫宁健康等行业信息化头部企业。
  风险提示:客户转化程度不及预期;商业化进程不及预期风险;行业竞争加剧风险等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读