计算机:META发布LLAMA2开源模型 行业垂类模型有望加速发展

2023-07-21 07:20:06 和讯  长江证券宗建树
  事件描述
  当地时间7 月18 日,Meta 发布了第二代LLaMA 开源大模型,免费提供给研究和商业开发者使用。LLaMA 2 是Meta 在2023 年2 月发布的 LLaMA 开源模型的后续版本,多个维度的性能得到了提升。得益于Meta 与微软的扩展合作伙伴关系以及针对Windows 操作系统的优化,LLaMA2 模型运行将更加简化;微软Azure 为LLaMA2 的部署提供了DeepSpeed 和ONNXRuntime 等开源工具链,可以显著提高微调速度。同时开源工具链也支持模型在高性能Windows PC 上微调,降低了模型的开发门槛。此外,高通也宣布LLaMA2 模型会于2024 年支持在高通骁龙系统芯片的智能手机和个人电脑上运行。
  事件评论
  Meta 加强了LLaMA2 模型训练与调参的步骤。本次发布的LLaMA2 开源模型共有两个版本,分别是经过预训练的LLaMA2 模型和经过调参的LLaMA2-chat 模型。其中LLaMA2模型有70 亿、130 亿、700 亿三个参数的变体模型供不同场景使用,70B 参数的模型综合性能更为突出。模型训练数据采集自互联网公开数据,训练数据规模达到了2 万亿tokens,相比初代模型提升了40%;LLaMA2-chat 模型的调参建立在超十万条标注数据和百万条的人类反馈上进行,经过调参的模型在对话场景上具备更强的性能,并且在“有用性”和错误性基准测试中表现更好。
  LLaMA2 模型性能在多个维度上得到了提升。经过训练的模型上下文窗口长度达到了4096 tokens,是初代LLaMA 的两倍;由于LLaMA2 模型的训练数据相比前代更加符合伦理安全,因此模型生成的回答安全性较高,在对比测试中安全性远超ChatGPT 、Vicuna等模型;此外,升级后的LLaMA 模型在9 项性能测试任务中分值得到了一定程度的提高,但性能相比于PaLM-2 和GPT-4 模型仍有一定差距。
  行业垂类模型有望加速发展。由于大模型开发难度较高,因此行业分化出了自研模型、开源成熟模型调参以及API 接入三种模式。本次发布的LLaMA2 模型对有一定AI 开发能力的中小型应用厂商有较大利用价值,此类厂商可以借助成熟的开源模型,根据自己的行业数据调参来开发自己的行业垂类模型。初代LLaMA 在发布后即迅速出现了一系列的行业垂类模型变体,如金融场景的Cornucopia、教育场景的TaoLi 等;本次升级后的LLaMA2模型具备更高的基准性能,可以作为底座模型赋能教育、金融、办公等行业应用。
  风险提示
  1、大模型技术推进不及预期;
  2、大模型商业化落地的过程存在风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读