电子行业动态点评:从谷歌I/O大会看AI大模型竞争格局

2024-05-17 08:30:10 和讯  华泰证券黄乐平/张皓怡
  海外AI 大模型竞争格局:微软&OpenAI、谷歌持续领先北京时间5 月15 日凌晨,谷歌举行I/O 大会,发布AI 助手Project Astra,更新Gemini 大模型,并发布视频生成模型Veo、文生图模型Imagen 3、开源LLM Gemma 2。结合近期OpenAI、Meta 等厂商的动作,我们看到AI大模型行业有以下趋势:1)基础模型层面,原生多模态大模型是头部玩家下一竞争高地,目前已发布的模型中只有谷歌Gemini 和OpenAI GPT-4o;2)开源模型方面,Meta Llama 系列独树一帜,谷歌Gemma 和微软Phi从适用于端侧的SLM(小型语言模型)入手,参数量逐渐扩大,模型系列逐渐丰富,同样值得关注;3)近期OpenAI 和谷歌分别发布了其最新AI 助手GPT-4o 和Project Astra,得益于原生多模态架构赋能,人机交互体验提升明显,我们看好大模型在手机、PC、智能穿戴等硬件产品的落地。
  大模型:LLM→多模态大模型→原生多模态大模型我们看到原生多模态大模型逐渐成为基础模型的下一竞争高地。谷歌2023年12 月发布的Gemini 是首个原生多模态大模型。以OpenAI 为例,GPT-3.5是仅支持文本输入输出的LLM,GPT-4 是具备图像理解和生成能力的多模态大模型,2024 年5 月发布的GPT-4o 则升级为原生多模态大模型。过去训练多模态模型时,往往分别训练不同模态的模型并加以拼接,而原生多模态模型则将多种模态集成到一个模型中,效果更佳。例如,GPT-4(非原生多模态)的语音模式由三个独立模型组成,分别负责将音频转录为文本、接收文本并推理输出文本、将该文本转换回音频,导致GPT-4 丢失了大量信息——无法直接观察音调、多个说话者,也无法输出笑声、歌唱或表达情感。
  开源模型:Meta 独树一帜,谷歌、微软各具特色海外市场中,Meta 凭借领先的开源模型Llama 系列独树一帜。以Meta 2024年4 月发布的Llama 3 为例,中等规模的70B 模型效果超过GPT-3.5,最大的400B 模型(训练中)性能与GPT-4 相当。Llama 系列的许可证允许重新分发、微调和创作衍生作品,便于用户低成本高效落地使用,开源社区以Llama 作为基座模型,已衍生出一系列变体模型。谷歌Gemma 系列与微软Phi 系列开源模型最初定位SLM,适于在手机、PC 等终端落地:1)Phi-3系列首先推出3.8B 的mini 版本,后续还将推出7B的small 和14B的medium版本。2)谷歌Gemma 包括2B 和7B 版本,本次I/O 大会宣布即将推出Gemma 2 27B,性能可与Llama 3 70B 相媲美。
  2C 应用:硬件落地大幕即将开启
  近期OpenAI 和谷歌分别发布了最新AI 助手GPT-4o 和Project Astra,支持输入和输出文本、音频和图像。得益于原生多模态架构赋能,响应时延大幅降低,人机交互体验提升明显。我们认为手机、PC 和智能穿戴产品或是AI大模型落地的最佳载体。手机:根据彭博5 月11 日报道,苹果和 OpenAI接近达成iOS 聊天机器人协议;谷歌Gemini 已经搭载在三星Galaxy S24,并与OPPO、一加等品牌达成合作,或将搭载在其海外版机型上。PC:目前由PC 品牌厂商推动(例如4/18,联想发布了内置个人智能体“联想小天”的AI PC,由嵌入本地的天禧大模型驱动),暂未看到PC 品牌与大模型公司的联盟。智能穿戴:2024 年4 月Meta 发布Llama 3 时,宣布雷朋智能眼镜将搭载Llama 3,将具备文本翻译、视频直播、物体识别等功能。
  风险提示:AI 及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读