人工智能行业点评报告：OPENAI&谷歌相继发力有望引领多模态大模型浪潮

2024-02-18 13:50:04 和讯浙商证券刘雯蜀

投资要点
近日，OpenAI 发布文生视频模型Sora，可遵循用户的指示生成长达一分钟的视频，并保持视觉质量；而谷歌发布Gemini 1.5 Pro 大模型，可支持超长文本上下文推理，并且多模态能力表现优异，可精确捕捉电影视频细节。我们认为在OpenAI、谷歌的引领下，有望开启多模态大模型的新一轮浪潮。
OpenAI 发布Sora 文生视频模型，可生成最长一分钟视频北京时间2024 年2 月16 日，OpenAI 发布文生视频模型Sora，可遵循用户的指示生成长达一分钟的视频，并保持视觉质量。Sora 能够生成包含多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。在OpenAI 官网上可看到多个由Sora 模型生成的视频案例，如时尚女子在东京街头、猛犸象在雪原上行走、在艺术馆中边走边欣赏艺术品等等；
Sora 模型基于DALL-E 和GPT 模型研究成果，可实现视频加工、拼接等功能除了基于文本生成视频的能力，Sora 模型也可以接受其他输入，例如预先存在的图像或视频。Sora 能够执行多种图像和视频编辑任务，如创建循环视频、为静态图像添加动画、将视频向前或向后延伸、将两段视频进行拼接等。
OpenAI 官方技术文档指出，研究人员探索了生成模型在视频数据上的大规模训练，并在时长、分辨率和宽高比可变的视频和图像上联合训练了文本条件下的扩散模型。与大语言模型使用文本Token 不同的是，Sora 模型使用了视觉补丁（VisualPatches）方法，OpenAI 证明了这种视觉补丁的方法在视频/图像生成模型中非常有用。
谷歌发布Gemini 1.5 Pro 大模型，长文本及多模态推理能力出色美国时间2024 年2 月15 日，谷歌发布基于MoE 架构的Gemini 1.5 Pro 大模型，是基于前期发布的Gemini 1.0 Pro 的更新版本。大模型在处理530,000 token 文本时，能够实现100%的检索完整性，在处理1,000,000 token 的文本时也可达到99.7%的检索完整性。
在多模态能力方面，Gemini 1.5 Pro 能够分别在约11 小时的音频资料和大约3 小时的视频内容中，100%成功检索到各种隐藏的音频片段或视觉元素。根据谷歌官网信息，Gemini 1.5 Pro 可实现对阿波罗11 号的402 页飞行记录、或是44 分钟的无声电影内容的准确推理。
看好2024 年多模态大模型以及大模型在3D 建模、视频领域迎来爆发我们在2023 年11 月15 日发布的《大地回春，百花齐放——计算机行业2024 年度策略》中提出，2024 年国内外厂商有望发布更加复杂的多模态大模型，实现文本、语音、图像以及音视频等多模态数据的复杂处理和交互。我们认为OpenAI发布Sora 模型，有望开启多模态大模型的新一轮浪潮。
建议关注标的
（1）大模型厂商：科大讯飞、云从科技、微软、谷歌；（2）多模态应用厂商：万兴科技、虹软科技、焦点科技、Adobe；风险提示
1、AI 技术迭代不及预期的风险；2、AI 商业化产品发布不及预期；3、政策不确定性带来的风险；4、下游市场不确定性带来的风险
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

人工智能行业点评报告：OPENAI&谷歌相继发力有望引领多模态大模型浪潮

最新评论

相关推荐

热门阅读

和讯特稿

人工智能行业点评报告：OPENAI&谷歌相继发力 有望引领多模态大模型浪潮

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读

人工智能行业点评报告：OPENAI&谷歌相继发力有望引领多模态大模型浪潮