计算机行业周报:GPT-4V:多模态最新里程碑

2023-10-16 09:05:08 和讯  国盛证券刘高畅
  多模态能力跃迁,GPT-4V 开启视觉交互时代。1)9 月25 日,OpenAI 官方宣布,其开始在ChatGPT 中推出新的语音和图像功能;同日,OpenAI发布《GPT-4V(ision) system card》,探索并展示此次大模型在视觉上的能力及其边界,GPT-4V 的训练在2022 年完成,OpenAI 从2023 年3 月开始提供早期访问;9 月29 日微软发布《大型多模态模型的曙光:GPT-4V 的初步探索》,详细测评GPT-4V 在多类任务上的表现。2)支持图像输入为GPT-4V 的主要革新。在输入方式上,GPT-4V 支持图像、子图像、文本、场景文本、视觉指针及其混合集;在能力上,GPT-4V 在视觉理解和解释、视觉参考提示、时间序列与视频理解、抽象视觉推理与智力测试、情商测试等实验中均表现优秀。
  微软深度测评,LMM 应用场景广阔。微软基于对GPT-4V 的测评,探讨了大型多模态模型有哪些有前景的应用场景,设计了GPT-4V 在各场景的新兴应用测试用例。1)工业领域,可用于缺陷检测、安全检查、杂货结账。2)医疗领域可用于放射学报告生成。3)汽车保险领域可生成损伤评估和保险报告。4)图像标题生成功能可用于图像整理以及带分割密集标题生成。5)图像生成领域可用于生成图像评估以及图像编辑提示词生成。6)具身智能领域可用于操作机器和导航。7)GUI 导航领域,可用于网络浏览、在线购物、通知理解和观看视频。
  插件、自我反思等工具加持,LMM 潜力无限。微软探讨了GPT-4V 未来可能的研究方向,这些方向可能进一步增强GPT-4V 的能力。包括多模态插件(例如使用Bing 图像搜索插件)、多模态链(例如将图像裁剪插件用于计数任务)、自我反思、自一致性(聚合多个输出以产生最后答案)和检索增强(通过检索相关信息并将其集成到提示中来增强LMM)。
  建议关注:
  1)多模态应用:大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。
  2)办公应用:金山办公、科大讯飞、万兴科技、福昕软件等。
  3)落地快&估值性价比:大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。
  4)算力侧:英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、创业黑马、万马科技、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、汇纳科技等。
  5)机器人:硬件供应商:三花智控、拓普集团、鸣志电器、斯菱股份、绿的谐波等。
  风险提示:AI 技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读