计算机行业点评:谷歌IO大会推出多款AI模型 AIGC应用落地加速

2024-05-17 11:25:06 和讯  国都证券王树宝
一、事件:
5 月15 日,谷歌举办了年度I/O 开发者大会。大会上,谷歌更新升级了Gemini 1.5 Pro 版本,并推出Gemini 1.5 Flash 轻量化小模型。同时,谷歌发布了视频生成模型Veo,对标 OpenAI 的Sora,以及名为“ Astra”的高级视觉和对话响应智能体项目。此外,谷歌正式推出了“ AI Overviews”搜索功能,搜索引擎会直接归纳总结搜索结果。
二、点评:
此次谷歌I/O 开发者大会主要围绕人工智能展开,会上谷歌公布了Gemini AI 的最新进展,并围绕谷歌核心业务和生成式人工智能的融合展开分享。
模型产品矩阵及技术能力升级方面:
(1) Gemini 1.5 Pro 进阶版模型:最大支持上下文窗口将从100 万Tokens 升级到200 万,同时支持35 种语言。现在可以分析比以前更长的文档、代码库、视频和音频录音。
(2) Gemini 1.5 Flash 轻量化模型:模型满足用户对低延迟和低成本的需求,基于“蒸馏”技术,专为大规模服务设计,速度更快、成本低至0.35 美元/百万Tokens。适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等需要快速处理的任务。
(3) 开源大模型Gemma 升级:下月将推出的Gemma 2 参数量将能达到270 亿。同时,视觉语言模型PaliGemma 也被添加到Gemma模型系列中。
(4) 文生图大模型Imagen 3:相比上代可以更加准确的识别文字信息,创作的图片也会更符合文本描述。
(5) 视频生成模型 Veo:可以通过文本、图像来生成视频,分辨率可以达到 1080P,视频时长可以超过1 分钟,正式对标OpenAI的Sora 模型。
模型赋能产品及场景方面:
(1) 首个AI Agent 产品Project Astra:基于全新的音频概述功能以及Gemini 大模型打造的AI 智能体,能够实现多模态理解和实时对话。在大会现场,谷歌演示了AI 助手能够通过摄像头视频,识别“什么东西能发出声音”、“现在身处何地”等指令,同时还演示了利用类似于智能眼镜的语音交互。
(2) AI 概览(AI Overview)功能:谷歌将Gemini 大模型与其搜索引擎深度集成,搜索引擎会直接归纳总结搜索结果,同时谷歌搜索也将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,并支持“拍视频”搜索解决方案的新搜索形式。
(3) 集成谷歌Gemini 大模型的安卓15:安卓15 将提供更多的AI功能,比如已经在三星AI 手机上采用的即圈即搜功能,以及总结PDF 的文件内容等功能。
硬件方面:
(1) 第六代TPU 芯片Trillium:较上一代芯片的算力表现翻4.7 倍, 云用户从今年下半年开始可以用上新芯片。同时谷歌云将在2025 年初用上英伟达的最新Blackwell 架构GPU。
谷歌在全面升级其大模型、AI 应用以及开发工具方面取得了显著进展,其中谷歌通过AI 赋能,将其搜索引擎逐渐转变为AI 智能体入口,能够深度理解用户需求、提供高效、多模态、个性化服务。近期GPT-4o 模型也展现出人机交互能力的大幅提升。随着大模型技术能力加速迭代,AIGC 应用场景不断拓宽,推动下游应用加速部署,大模型产业链有望加速形成商业闭环。建议关注AI 办公、AI 教育、AI 电商等容易较快落地领域,同时在落地终端方面,建议关注大模型能力提升带来终端的重构,如AIPC、AI 手机、智能家居、智能座舱等。重点公司:金山办公、科大讯飞、中科创达、萤石网络、中科曙光。
风险提示:技术发展不及预期、下游需求不及预期、行业竞争加剧等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读

          【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。