多模态能力跃迁,GPT-4V 开启视觉交互时代。1)9 月25 日,OpenAI 官方宣布,其开始在ChatGPT 中推出新的语音和图像功能;同日,OpenAI 发布《GPT-4V(ision) system card》,探索并展示此次大模型在视觉上的能力及其边界,类似于GPT-4,GPT-4V 的训练在2022年完成,OpenAI 从2023 年3 月开始提供早期访问;9 月29 日,微软团队发布《The Dawnof LMMs: Preliminary Explorations with GPT-4V(ision)》,详细测评GPT-4V 在多类任务上的表现。2)具体而言,支持图像输入并理解分析为GPT-4V 的主要革新。在输入方式上,GPT-4V 支持图像、子图像、文本、场景文本、视觉指针及其混合集;在能力上,GPT-4V 在视觉理解和解释、视觉参考提示、时间序列与视频理解、抽象视觉推理与智力测试、情商测试等实验中均表现优秀。3)未来,GPT-4V 应用场景广阔,其在理解视觉世界上的卓越能力,可应用于缺陷检测、安全检查、杂货结账、医疗影像、汽车保险相关评估、定制化图像生成、智能机器、GUI 导航等多个场景。
CLIP 打开图文对齐大门,或为实现多模态的核心基础。1)目前,视觉+语言多模态大模型相对主流的实现方法为:借助预训练好的大语言模型和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。根据OpenAI 及微软目前官方发布的GPT-4V 相关信息,我们并不能详细了解其实现视觉模型的具体方法,但或许可以从OpenAI 发布的CLIP 系统,初步了解多模态大模型的实现方式。2)CLIP 由OpenAI 于2021 年1 月提出,其通过超大规模模型预训练提取视觉特征,进行图片和文本之间的对比学习,即将一张图片与能较好表达这张图片内容的一段文字联系起来,该模型训练完毕后即使不微调直接进行推理,即可达到良好的效果。为了训练CLIP,OpenAI 构建了一个4 亿容量的数据集,彼时在2021 年,最优的模型大约需要256 张V100、训练12天,效果即可显著优于传统视觉分类器。3)我们认为,通过将图像和文本的特征对齐,CLIP充当了图像-文本编码器,在视觉和文本之间架起一座桥梁,将其整合到同一个潜在空间(一种矢量化的数据关系网)中,这种技术或可以让ChatGPT 跨文本和图像进行上下文推理,CLIP 以及后续迭代的BLIP、BLIP2 等为实现大模型视觉功能的核心基础。
多模态应用空间广阔,算力需求或呈量级式提升。1)训练阶段:GPT4 可能是在10000-25000 张A100 上训练的;而对于GPT5,其可能需要25000-50000 张H100 进行训练。相比GPT3.5 约数千张H100 的需求量,GPT4、GPT5 等相对成熟的多模态模型算力需求提升约数倍至十倍级别。2)推理阶段:数据量角度而言,图片、视频、语音均相对于文字交互有数个量级的提升,或对应算力需求的高速扩张。文字:Outlook 等主流邮箱已可利用OpenAI 技术及GPT 自动生成格式化的电子邮件回复,考虑全球每天超3000 亿封的电子邮件发送量、Outlook 约8%的市占率、每个单词数据量约为5B 等因素,我们预计,接入Outlook 邮件场景后,Chatgpt 每日生成数据量或为261GB,相比ChatGPT 官网问答式场景约33GB 的数据量有数倍提升。语音:Teams 与OpenAI 已正式开展合作,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能,官方定价为10 美元/月。相比文字,音频数据量明显更大,约为2B/秒;参考Teams 每日约60 亿分钟的总会议时长,考虑相关功能使用比例,Teams 每日新增数据量需求约为336GB。图片:根据文字描述、标签点击等自动生成图片的功能已有商业化落地,万兴科技Filmora 也已接入OpenAI,为视频创作者提供更定制化的图片素材。根据我们估算,以Filmora 现有场景为基础,OpenAI 图片素材输出数据量约为每日586GB。视频:《犬与少年》是AIGC 技术辅助商业动画片的发行级别作品,由Netflix、小冰公司日本分部(rinna)、WIT STUDIO 共同创作。在视频领域,单秒输出数据量或达到1MB,是目前最为复杂的应用场景之一。随着AIGC 技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率或迎来显著提升,星辰大海拉开序幕。
相关标的:
1)多模态应用:大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。
2)办公应用:金山办公、万兴科技、福昕软件、科大讯飞等。
3)落地快&估值性价比:大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。
4)算力侧:英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。
5)机器人:硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。
风险提示:AI 技术迭代不及预期风险;假设与实际情况不符风险;经济下行超预期风险;行业竞争加剧风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论