传媒行业简评报告:OPENAI开发者大会前瞻:降成本 多模态 做生态

2023-11-03 18:20:05 和讯  中信建投证券杨艾莉
  核心观点
  Open AI 首届开发者大会将于11 月6 日召开,根据路透社报道,我们预计有如下更新:1)推出含内存存储的API,减少历史记录的重复上传,实现大模型计算速度增加,及API 调用成本可能下降95%;2)持续布局多模态:10 月底已开启GPT 4 灰度测试,推出“支持多格式文件上传”和“一站式工具整合”两大功能,优化多模态体验。
  GPT-4V 和DALL·E 3 的API 接口可能推出。
  长期看,OpenAI 有望推动大模型逐渐迭代为AI 智能体,并构建以ChatGPT 大模型为基础的新生态体系。
  关注:1)基于ChatGPT 等大模型开发AI 应用,或布局多模态生成的公司:万兴科技、美图、焦点科技、易点天下、汤姆猫等;2)真人互动游戏或将成为游戏公司新的盈利增长点,AI 换脸等多模态AI 技术可以增加玩家体验,看好多模态AI 技术在游戏、影视行业的应用,同时关注其在营销&电商、教育等领域的发展。
  事件
  据Open AI 官网,Open AI 首届开发者大会将于11 月6 日在旧金山举行,来自全国各地的数百名开发人员和Open AI团队将参与其中,预览新工具并交流想法。据路透社,开发者大会旨在吸引更多开发者付费访问Open AI 模型,长期基于OpenAI 模型构建新生态系统。
  简评
  我们预计开发者大会可能发布公司在GPT-4、DALL·E 等模型的新进展,主要包括:1)发布内存存储API,减少重复上传历史文本带来的token 耗用,从而降低API 调用成本;2)持续推进多模态布局,推出GPT-4 V 和DALL·E 3 的API 调用服务等。
  1、内存存储API 有望有效降低API 调用成本
  目前大量token 用于历史文本传输,内存存储API 有望降低API调用成本达95%。据公司官网,目前通过GPT-4、GPT-3.5Turbo 上传750 词的文档分别需要0.06、0.003 美元(以最高速度计算)。2023 年6 月,公司CEO Sam Altman 接受AI 开发平台Humanloop 采访时曾透露公司的发展路线图,包括推出“有记忆的API”,解决大量token 用于历史文本传输的情况。据路透社,内存存储API 可能在开发者大会中推出,提高大模型计算速度,降低开发者的API 调用成本达95%。
  1)降低API 调用成本:当前运行AI 应用时,都需要将其历史记录通过API 上传至大模型,以便大模型依据历史记录进行内容生成,导致大量token 用于历史记录传输。内存存储API 推出后,使用AI 应用时,只需通过API 上传最新的对话记录,大模型即可结合该记录和其维护的历史记录,生成新的内容,以此降低token 使用量。
  2)提高大模型计算速度:内存存储API 推出后,大模型只需进行新记录的计算,无需对历史记录进行重复计算,可以提高计算速度,减小算力浪费。
  2、多模态持续推进,GPT-4 和DALL·E 3 或将向开发者开放GPT-4 新版本开启灰度测试,提升多模态体验。据theverge,公司于10 月底向部分ChatGPT PLUS 用户开放了新版本的GPT-4,主要功能更新包括:
  1)支持多格式文件上传:旧版本中,用户需要使用“Advanced Data Analysis”等功能完成PDF 文档上传和信息提取;新版本中,用户可以直接上传PDF、数据文件等多种格式文件,未来或将支持更多文件类型;2)一站式工具整合:GPT-4 的不同模式各具优势和功能短板,其中多模态模式可以同时处理文本、图像、声音等多种类型数据,但仅支持图片上传;数据分析模式具备较强的数据处理和分析能力,但不能实时联网;实时联网模式和DALL-E 则不支持文件上传。旧版本中,用户需要自主进行模式选择;新版本中,GPT-4 将根据用户需求,自动选择和编排多个工具完成任务,向AI 智能体角色迭代。
  GPT-4V 和DALL·E 3 可能推出API 接口。据路透社,公司可能在开发者大会上推出多模态API,功能为处理和生成除文本以外的多种类型数据,包括图像和音视频,开发者可以借此构建具有多模态能力的AI 应用。
  基于目前公司的大模型,我们预计GPT-4V 和DALL·E 3 的API 接口可能推出:
  1)GPT-4V:据领英,Logan Kilpatrick 是OpenAI 首位负责开发者关系的工程师,于2022 年12 月入职,长期通过X(Twitter)与开发者交流。11 月1 日他发布新帖子,宣布ChatGPT 于9 月更新的多模态功能将很快面向所有人开放,并就通过API 接口向GPT-4V 上传图片,回答开发者希望获得的信息。由此我们预计,公司或将在开发者大会推出GPT-4V 的API 接口。
  2)DALL·E 3:2023 年9 月,公司推出图像生成模型DALL·E 3,目前已向ChatGPT PLUS 和企业用户开放。据公司官网,其计划于今年秋季开放API 接口。
  3、相关公司
  1)基于ChatGPT 等大模型开发AI 应用,或布局多模态生成的公司一方面,随着内存存储API 的推出,我们预计大模型API 调用有望进入降本增效阶段,降低下游AI 应用的开发门槛;另一方面,GPT-4 V 和DALL·E 3 API 接口的发布,也将推动更多AI 多模态应用落地,爆款AI应用概率增加。建议关注基于ChatGPT 等大模型开发AI 应用,或布局多模态生成的公司:
   万兴科技:公司与微软、华为、阿里、科大讯飞等国内外头部厂商开展多类合作,引入OpenAI、百度等公司的大模型能力,完成视频、绘图、文档等业务线内多款产品AIGC 功能落地。同时,公司将发布多媒体大模型“天幕”,参数百亿级,由视频大模型、音频大模型、图片大模型、文本大模型组成,具备一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。
   焦点科技:23 年3 月,公司研发端对接了 Open AI 的 API 接口,积极探索ChatGPT 的技术应用。目前已推出AI 麦可,充当外贸企业的“数智员工”,实现高频外贸工作的自动化。接下来,公司将关注视频实时翻译和数字人两个方向,其中实时翻译将支持买家和供应商之间更高效的沟通和交流;数字人的开发已经在技术上基本解决,将在未来的AI 麦可版本中逐步推出。
   易点天下: 公司已接入GPT-4 等领先大模型,推出营销数字人模型等业务场景模型。目前AI 营销平台KreadoAI 上线,主要功能包括AI 数字人口播视频、AI 生成营销文案等功能,V2.0 版本新增包括真人语音克隆、真人形象克隆、PPT 文件生成数字人口播视频等7 个功能。
   汤姆猫:国内研发团队与西湖心辰合作的多模态AI 汤姆猫产品已初步实现拍照识物、英文口语启蒙、兴趣引导、科普教育、AI 生图、AI 生成绘本、情境对话等多个功能;海外团队研发的首款 AI 手游《TalkingBen AI》结合 OpenAI 与Google 的 AI 通用大模型,于8 月28 日在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。
   美图:AI 数字人生成工具DreamAvatar 已上线,“AI 演员”数字人服务,能基于视频素材,进行人体检测、跟踪、擦除、替换、背景修复,自动把真人替换成同步的数字人。
  2)关注多模态技术,在游戏、影视等领域的应用进展随着《完蛋!我被美女包围了》多日登顶steam 国内区畅销榜首,我们认为真人互动游戏有望成为游戏新形态,凭借制作成本低、演员支出少等特点,造就游戏公司新的增长曲线。同时,AI 换脸、AI 换声音等多模态AI 技术,可以制作出个性化游戏角色,增加玩家体验。因此,我们看好多模态AI 技术在游戏、影视行业的应用,同时关注其在营销&电商、教育等领域的发展。
   游戏:三七互娱、吉比特、恺英网络、盛天网络、巨人网络、完美世界、神州泰岳 电影&电视剧:光线传媒、博纳影业、华策影视; 视频&动漫:芒果超媒、捷成股份、中文在线
  电商&营销:蓝色光标、遥望科技、光云科技
   教育:世纪天鸿、南方传媒、奥飞娱乐
  风险提示:国际政治风险、生成式AI 技术发展不及预期、VR 硬件效果不及预期、各领域技术融合进度不及预期的风险、算力支持程度不及预期、数据质量及数量支持程度不及预期、用户需求不及预期、技术垄断风险、原始训练数据存在偏见风险、算法偏见与歧视风险、算法透明度风险、增加监管难度风险、政策监管风险、商业化能力不及预期、相关法律法规完善不及预期、版权归属风险、深度造假风险、人权道德风险、影响互联网内容生态健康安全风险、企业风险识别与治理能力不足风险、用户审美取向发生变化的风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读