传媒行业简评报告：OPENAI开发者大会前瞻：降成本多模态做生态

2023-11-03 18:20:05 和讯中信建投证券杨艾莉

　　核心观点
　　Open AI 首届开发者大会将于11 月6 日召开，根据路透社报道，我们预计有如下更新：1）推出含内存存储的API，减少历史记录的重复上传，实现大模型计算速度增加，及API 调用成本可能下降95%；2）持续布局多模态：10 月底已开启GPT 4 灰度测试，推出“支持多格式文件上传”和“一站式工具整合”两大功能，优化多模态体验。
　　GPT-4V 和DALL·E 3 的API 接口可能推出。
　　长期看，OpenAI 有望推动大模型逐渐迭代为AI 智能体，并构建以ChatGPT 大模型为基础的新生态体系。
　　关注：1）基于ChatGPT 等大模型开发AI 应用，或布局多模态生成的公司：万兴科技、美图、焦点科技、易点天下、汤姆猫等；2）真人互动游戏或将成为游戏公司新的盈利增长点，AI 换脸等多模态AI 技术可以增加玩家体验，看好多模态AI 技术在游戏、影视行业的应用，同时关注其在营销&电商、教育等领域的发展。
　　事件
　　据Open AI 官网，Open AI 首届开发者大会将于11 月6 日在旧金山举行，来自全国各地的数百名开发人员和Open AI团队将参与其中，预览新工具并交流想法。据路透社，开发者大会旨在吸引更多开发者付费访问Open AI 模型，长期基于OpenAI 模型构建新生态系统。
　　简评
　　我们预计开发者大会可能发布公司在GPT-4、DALL·E 等模型的新进展，主要包括：1）发布内存存储API，减少重复上传历史文本带来的token 耗用，从而降低API 调用成本；2）持续推进多模态布局，推出GPT-4 V 和DALL·E 3 的API 调用服务等。
　　1、内存存储API 有望有效降低API 调用成本
　　目前大量token 用于历史文本传输，内存存储API 有望降低API调用成本达95%。据公司官网，目前通过GPT-4、GPT-3.5Turbo 上传750 词的文档分别需要0.06、0.003 美元（以最高速度计算）。2023 年6 月，公司CEO Sam Altman 接受AI 开发平台Humanloop 采访时曾透露公司的发展路线图，包括推出“有记忆的API”，解决大量token 用于历史文本传输的情况。据路透社，内存存储API 可能在开发者大会中推出，提高大模型计算速度，降低开发者的API 调用成本达95%。
　　1）降低API 调用成本：当前运行AI 应用时，都需要将其历史记录通过API 上传至大模型，以便大模型依据历史记录进行内容生成，导致大量token 用于历史记录传输。内存存储API 推出后，使用AI 应用时，只需通过API 上传最新的对话记录，大模型即可结合该记录和其维护的历史记录，生成新的内容，以此降低token 使用量。
　　2）提高大模型计算速度：内存存储API 推出后，大模型只需进行新记录的计算，无需对历史记录进行重复计算，可以提高计算速度，减小算力浪费。
　　2、多模态持续推进，GPT-4 和DALL·E 3 或将向开发者开放GPT-4 新版本开启灰度测试，提升多模态体验。据theverge，公司于10 月底向部分ChatGPT PLUS 用户开放了新版本的GPT-4，主要功能更新包括：
　　1）支持多格式文件上传：旧版本中，用户需要使用“Advanced Data Analysis”等功能完成PDF 文档上传和信息提取；新版本中，用户可以直接上传PDF、数据文件等多种格式文件，未来或将支持更多文件类型；2）一站式工具整合：GPT-4 的不同模式各具优势和功能短板，其中多模态模式可以同时处理文本、图像、声音等多种类型数据，但仅支持图片上传；数据分析模式具备较强的数据处理和分析能力，但不能实时联网；实时联网模式和DALL-E 则不支持文件上传。旧版本中，用户需要自主进行模式选择；新版本中，GPT-4 将根据用户需求，自动选择和编排多个工具完成任务，向AI 智能体角色迭代。
　　GPT-4V 和DALL·E 3 可能推出API 接口。据路透社，公司可能在开发者大会上推出多模态API，功能为处理和生成除文本以外的多种类型数据，包括图像和音视频，开发者可以借此构建具有多模态能力的AI 应用。
　　基于目前公司的大模型，我们预计GPT-4V 和DALL·E 3 的API 接口可能推出：
　　1）GPT-4V：据领英，Logan Kilpatrick 是OpenAI 首位负责开发者关系的工程师，于2022 年12 月入职，长期通过X（Twitter）与开发者交流。11 月1 日他发布新帖子，宣布ChatGPT 于9 月更新的多模态功能将很快面向所有人开放，并就通过API 接口向GPT-4V 上传图片，回答开发者希望获得的信息。由此我们预计，公司或将在开发者大会推出GPT-4V 的API 接口。
　　2）DALL·E 3：2023 年9 月，公司推出图像生成模型DALL·E 3，目前已向ChatGPT PLUS 和企业用户开放。据公司官网，其计划于今年秋季开放API 接口。
　　3、相关公司
　　1）基于ChatGPT 等大模型开发AI 应用，或布局多模态生成的公司一方面，随着内存存储API 的推出，我们预计大模型API 调用有望进入降本增效阶段，降低下游AI 应用的开发门槛；另一方面，GPT-4 V 和DALL·E 3 API 接口的发布，也将推动更多AI 多模态应用落地，爆款AI应用概率增加。建议关注基于ChatGPT 等大模型开发AI 应用，或布局多模态生成的公司：
　　万兴科技：公司与微软、华为、阿里、科大讯飞等国内外头部厂商开展多类合作，引入OpenAI、百度等公司的大模型能力，完成视频、绘图、文档等业务线内多款产品AIGC 功能落地。同时，公司将发布多媒体大模型“天幕”，参数百亿级，由视频大模型、音频大模型、图片大模型、文本大模型组成，具备一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。
　　焦点科技：23 年3 月，公司研发端对接了 Open AI 的 API 接口，积极探索ChatGPT 的技术应用。目前已推出AI 麦可，充当外贸企业的“数智员工”，实现高频外贸工作的自动化。接下来，公司将关注视频实时翻译和数字人两个方向，其中实时翻译将支持买家和供应商之间更高效的沟通和交流；数字人的开发已经在技术上基本解决，将在未来的AI 麦可版本中逐步推出。
　　易点天下：公司已接入GPT-4 等领先大模型，推出营销数字人模型等业务场景模型。目前AI 营销平台KreadoAI 上线，主要功能包括AI 数字人口播视频、AI 生成营销文案等功能，V2.0 版本新增包括真人语音克隆、真人形象克隆、PPT 文件生成数字人口播视频等7 个功能。
　　汤姆猫：国内研发团队与西湖心辰合作的多模态AI 汤姆猫产品已初步实现拍照识物、英文口语启蒙、兴趣引导、科普教育、AI 生图、AI 生成绘本、情境对话等多个功能；海外团队研发的首款 AI 手游《TalkingBen AI》结合 OpenAI 与Google 的 AI 通用大模型，于8 月28 日在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。
　　美图：AI 数字人生成工具DreamAvatar 已上线，“AI 演员”数字人服务，能基于视频素材，进行人体检测、跟踪、擦除、替换、背景修复，自动把真人替换成同步的数字人。
　　2）关注多模态技术，在游戏、影视等领域的应用进展随着《完蛋！我被美女包围了》多日登顶steam 国内区畅销榜首，我们认为真人互动游戏有望成为游戏新形态，凭借制作成本低、演员支出少等特点，造就游戏公司新的增长曲线。同时，AI 换脸、AI 换声音等多模态AI 技术，可以制作出个性化游戏角色，增加玩家体验。因此，我们看好多模态AI 技术在游戏、影视行业的应用，同时关注其在营销&电商、教育等领域的发展。
　　游戏：三七互娱、吉比特、恺英网络、盛天网络、巨人网络、完美世界、神州泰岳电影&电视剧：光线传媒、博纳影业、华策影视；视频&动漫：芒果超媒、捷成股份、中文在线
　　电商&营销：蓝色光标、遥望科技、光云科技
　　教育：世纪天鸿、南方传媒、奥飞娱乐
　　风险提示：国际政治风险、生成式AI 技术发展不及预期、VR 硬件效果不及预期、各领域技术融合进度不及预期的风险、算力支持程度不及预期、数据质量及数量支持程度不及预期、用户需求不及预期、技术垄断风险、原始训练数据存在偏见风险、算法偏见与歧视风险、算法透明度风险、增加监管难度风险、政策监管风险、商业化能力不及预期、相关法律法规完善不及预期、版权归属风险、深度造假风险、人权道德风险、影响互联网内容生态健康安全风险、企业风险识别与治理能力不足风险、用户审美取向发生变化的风险。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

传媒行业简评报告：OPENAI开发者大会前瞻：降成本多模态做生态

最新评论

相关推荐

热门阅读

和讯特稿

传媒行业简评报告：OPENAI开发者大会前瞻：降成本 多模态 做生态

最新评论

相关推荐

热门阅读

和讯特稿

推荐阅读

传媒行业简评报告：OPENAI开发者大会前瞻：降成本多模态做生态