计算机行业点评：谷歌IO大会推出多款AI模型 AIGC应用落地加速

2024-05-17 11:25:06 和讯国都证券王树宝

一、事件：
5 月15 日，谷歌举办了年度I/O 开发者大会。大会上，谷歌更新升级了Gemini 1.5 Pro 版本，并推出Gemini 1.5 Flash 轻量化小模型。同时，谷歌发布了视频生成模型Veo，对标 OpenAI 的Sora，以及名为“ Astra”的高级视觉和对话响应智能体项目。此外，谷歌正式推出了“ AI Overviews”搜索功能，搜索引擎会直接归纳总结搜索结果。
二、点评:
此次谷歌I/O 开发者大会主要围绕人工智能展开，会上谷歌公布了Gemini AI 的最新进展，并围绕谷歌核心业务和生成式人工智能的融合展开分享。
模型产品矩阵及技术能力升级方面：
（1） Gemini 1.5 Pro 进阶版模型：最大支持上下文窗口将从100 万Tokens 升级到200 万，同时支持35 种语言。现在可以分析比以前更长的文档、代码库、视频和音频录音。
（2） Gemini 1.5 Flash 轻量化模型：模型满足用户对低延迟和低成本的需求，基于“蒸馏”技术，专为大规模服务设计，速度更快、成本低至0.35 美元/百万Tokens。适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等需要快速处理的任务。
（3）开源大模型Gemma 升级：下月将推出的Gemma 2 参数量将能达到270 亿。同时，视觉语言模型PaliGemma 也被添加到Gemma模型系列中。
（4）文生图大模型Imagen 3：相比上代可以更加准确的识别文字信息，创作的图片也会更符合文本描述。
（5）视频生成模型 Veo：可以通过文本、图像来生成视频，分辨率可以达到 1080P，视频时长可以超过1 分钟，正式对标OpenAI的Sora 模型。
模型赋能产品及场景方面：
（1）首个AI Agent 产品Project Astra：基于全新的音频概述功能以及Gemini 大模型打造的AI 智能体，能够实现多模态理解和实时对话。在大会现场，谷歌演示了AI 助手能够通过摄像头视频，识别“什么东西能发出声音”、“现在身处何地”等指令，同时还演示了利用类似于智能眼镜的语音交互。
（2） AI 概览（AI Overview）功能：谷歌将Gemini 大模型与其搜索引擎深度集成，搜索引擎会直接归纳总结搜索结果，同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。
（3）集成谷歌Gemini 大模型的安卓15：安卓15 将提供更多的AI功能，比如已经在三星AI 手机上采用的即圈即搜功能，以及总结PDF 的文件内容等功能。
硬件方面：
（1）第六代TPU 芯片Trillium：较上一代芯片的算力表现翻4.7 倍，云用户从今年下半年开始可以用上新芯片。同时谷歌云将在2025 年初用上英伟达的最新Blackwell 架构GPU。
谷歌在全面升级其大模型、AI 应用以及开发工具方面取得了显著进展，其中谷歌通过AI 赋能，将其搜索引擎逐渐转变为AI 智能体入口，能够深度理解用户需求、提供高效、多模态、个性化服务。近期GPT-4o 模型也展现出人机交互能力的大幅提升。随着大模型技术能力加速迭代，AIGC 应用场景不断拓宽，推动下游应用加速部署，大模型产业链有望加速形成商业闭环。建议关注AI 办公、AI 教育、AI 电商等容易较快落地领域，同时在落地终端方面，建议关注大模型能力提升带来终端的重构，如AIPC、AI 手机、智能家居、智能座舱等。重点公司：金山办公、科大讯飞、中科创达、萤石网络、中科曙光。
风险提示：技术发展不及预期、下游需求不及预期、行业竞争加剧等。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约