计算机行业周报：多模态对算力影响探讨

2023-10-07 18:20:04 和讯国盛证券刘高畅/陈芷婧

　　多模态能力跃迁，GPT-4V 开启视觉交互时代。1）9 月25 日，OpenAI 官方宣布，其开始在ChatGPT 中推出新的语音和图像功能；同日，OpenAI 发布《GPT-4V（ision） system card》，探索并展示此次大模型在视觉上的能力及其边界，类似于GPT-4，GPT-4V 的训练在2022年完成，OpenAI 从2023 年3 月开始提供早期访问；9 月29 日，微软团队发布《The Dawnof LMMs: Preliminary Explorations with GPT-4V（ision）》，详细测评GPT-4V 在多类任务上的表现。2）具体而言，支持图像输入并理解分析为GPT-4V 的主要革新。在输入方式上，GPT-4V 支持图像、子图像、文本、场景文本、视觉指针及其混合集；在能力上，GPT-4V 在视觉理解和解释、视觉参考提示、时间序列与视频理解、抽象视觉推理与智力测试、情商测试等实验中均表现优秀。3）未来，GPT-4V 应用场景广阔，其在理解视觉世界上的卓越能力，可应用于缺陷检测、安全检查、杂货结账、医疗影像、汽车保险相关评估、定制化图像生成、智能机器、GUI 导航等多个场景。
　　CLIP 打开图文对齐大门，或为实现多模态的核心基础。1）目前，视觉+语言多模态大模型相对主流的实现方法为：借助预训练好的大语言模型和图像编码器，用一个图文特征对齐模块来连接，从而让语言模型理解图像特征并进行更深层的问答推理。根据OpenAI 及微软目前官方发布的GPT-4V 相关信息，我们并不能详细了解其实现视觉模型的具体方法，但或许可以从OpenAI 发布的CLIP 系统，初步了解多模态大模型的实现方式。2）CLIP 由OpenAI 于2021 年1 月提出，其通过超大规模模型预训练提取视觉特征，进行图片和文本之间的对比学习，即将一张图片与能较好表达这张图片内容的一段文字联系起来，该模型训练完毕后即使不微调直接进行推理，即可达到良好的效果。为了训练CLIP，OpenAI 构建了一个4 亿容量的数据集，彼时在2021 年，最优的模型大约需要256 张V100、训练12天，效果即可显著优于传统视觉分类器。3）我们认为，通过将图像和文本的特征对齐，CLIP充当了图像-文本编码器，在视觉和文本之间架起一座桥梁，将其整合到同一个潜在空间（一种矢量化的数据关系网）中，这种技术或可以让ChatGPT 跨文本和图像进行上下文推理，CLIP 以及后续迭代的BLIP、BLIP2 等为实现大模型视觉功能的核心基础。
　　多模态应用空间广阔，算力需求或呈量级式提升。1）训练阶段：GPT4 可能是在10000-25000 张A100 上训练的；而对于GPT5，其可能需要25000-50000 张H100 进行训练。相比GPT3.5 约数千张H100 的需求量，GPT4、GPT5 等相对成熟的多模态模型算力需求提升约数倍至十倍级别。2）推理阶段：数据量角度而言，图片、视频、语音均相对于文字交互有数个量级的提升，或对应算力需求的高速扩张。文字：Outlook 等主流邮箱已可利用OpenAI 技术及GPT 自动生成格式化的电子邮件回复，考虑全球每天超3000 亿封的电子邮件发送量、Outlook 约8%的市占率、每个单词数据量约为5B 等因素，我们预计，接入Outlook 邮件场景后，Chatgpt 每日生成数据量或为261GB，相比ChatGPT 官网问答式场景约33GB 的数据量有数倍提升。语音：Teams 与OpenAI 已正式开展合作，可实现生成纪要、划分章节、时间标记、实时翻译等多类功能，官方定价为10 美元/月。相比文字，音频数据量明显更大，约为2B/秒；参考Teams 每日约60 亿分钟的总会议时长，考虑相关功能使用比例，Teams 每日新增数据量需求约为336GB。图片：根据文字描述、标签点击等自动生成图片的功能已有商业化落地，万兴科技Filmora 也已接入OpenAI，为视频创作者提供更定制化的图片素材。根据我们估算，以Filmora 现有场景为基础，OpenAI 图片素材输出数据量约为每日586GB。视频：《犬与少年》是AIGC 技术辅助商业动画片的发行级别作品，由Netflix、小冰公司日本分部（rinna）、WIT STUDIO 共同创作。在视频领域，单秒输出数据量或达到1MB，是目前最为复杂的应用场景之一。随着AIGC 技术在影视剧集、宣传视频等领域逐步渗透，视频创作效率或迎来显著提升，星辰大海拉开序幕。
　　相关标的：
　　1）多模态应用：大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。
　　2）办公应用：金山办公、万兴科技、福昕软件、科大讯飞等。
　　3）落地快&估值性价比：大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。
　　4）算力侧：英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。
　　5）机器人：硬件供应商：三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。
　　风险提示：AI 技术迭代不及预期风险；假设与实际情况不符风险；经济下行超预期风险；行业竞争加剧风险。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

计算机行业周报：多模态对算力影响探讨

最新评论

热门阅读

和讯特稿

计算机行业周报：多模态对算力影响探讨

最新评论

热门阅读

和讯特稿

推荐阅读