计算机行业点评研究：META发布开源大模型LLAMA 3.1 开源模型能力进一步提升

2024-07-28 16:10:04 和讯国联证券黄楷/陈安宇

　　行业事件
　　Meta 发布开源大模型Llama3.1，此模型包含405B、70B、8B 三个版本。该模型在多项基准测试中超越GPT-4o 和Claude 3.5 Sonnet，开源模型的能力或已追赶上闭源SOTA 模型。
　　模型能力进一步提升，开源使用权重与代码
　　Meta 外发的开源大模型Llama3.1 最高版本参数量达到4050 亿，该版本性能与最好的闭源模型性能接近。Llama3.1 开源/免费使用权重和代码，并允许进行模型微调、蒸馏到其他模型以及在任何地点部署。模型提供128k 上下文窗口，在多语言处理、优秀的代码生成、复杂问题理解推理能力上大幅提升，并包含模型工具使用。Llama StackAPI 可以轻松集成。整个生态系统包含25 个合作伙伴，其中包括亚马逊、英伟达、Databricks、Groq、微软云和谷歌云。
　　强算力叠加Transformer 架构，开发高质量开源模型Meta 在Llama3.1 的报告中指出：数据、规模和复杂性管理是开发高质量模型的关键因素。数据上，改进了用于前训练和后训练的数据的数量和质量；规模上，模型在预训练时使用浮点运算规模几乎为最大版本Llama2 的50 倍，在15.6T 文本上预训练了4050 亿参数的模型；复杂性管理上，采用了Transformer 架构并稍作调整，而不是MoE 架构，在后训练中采用了监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。模型405B 版本使用16K 个H100 GPU 训练，对应的服务器配备8 个GPU 和两个CPU，强算力平台叠加Transformer 架构进一步提升模型质量。
　　投资建议
　　模型开源可以保护用户的数据，帮助用户微调/蒸馏适用于自己的模型，促使更多用户使用AI 模型，从而长期推动AI 生态体系进步。AI 大模型产业的发展有望带动四方面投资机遇。（1）算力基础设施建设机遇：大模型能力提升或推动算力需求改变，国产GPU 生态体系加速发展，建议关注中科曙光、紫光股份、浪潮信息等领军企业；（2）端侧AI 软件开发机遇：端侧设备将是人机交互的重要中介，或将带动端侧AI 应用的软件开发机遇，建议关注中科创达等相关公司；（3）生产力工具革新机遇：大模型有望为生产力工具带来降低专业门槛、减少重复劳动等变化，建议关注金山办公、用友网络、泛微网络等；（4）行业信息化创新机遇：受益于人机交互能力提升，大模型有望率先在政务、金融等领域窗口服务或培训场景落地，行业信息化厂商将是连接基础大模型厂商和行业客户的重要环节，建议关注恒生电子、宇信科技、中控技术、卫宁健康等行业信息化头部企业。
　　风险提示：客户转化程度不及预期；商业化进程不及预期风险；行业竞争加剧风险等。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约