计算机行业周报:GPT-4V发布 多模态为AI注入新动能

2023-10-09 14:55:03 和讯  安信证券赵阳/夏瀛韬
  OpenAI 发布GPT-4V,大模型交互能力进一步提升9 月25 日,OpenAI 发布论文《GPT-4V(ision) System Card》,GPT-4V 允许用户输入图像并结合文本prompt 进行输出。同日,OpenAI 在官网宣布,对ChatGPT 进行重磅升级,实现看图、听声音、输出语音内容三大功能。OpenAI 发布了一个ChatGPT 的多模态短视频,从视频中可以看出,在融入了GPT-4V 的能力后,ChatGPT 具备了从图像中进行识别和推理的能力,多模态注入新的动能。
  9 月29 日,微软研究团队发布《The Dawn of LMMs:PreliminaryExplorations with GPT-4V(ision)》,这是一篇长达166 页的GPT-4V 测评报告,详细测评了GPT-4V 在十大任务上的表现,分别为:开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)。其中的亮点在于:
  1)图像识别:GPT-4V 既能识别知识型的公众人物和地标,也能够识别专业领域的知识(如肺部影像的判定),还可以识别人类的表情从而做出情感判断。
  2)图像推理:GPT-4V 可以实现相似图片“找不同”的功能,甚至可以做出IQ 测试中的图形推理问题。
  3)动态内容分析:GPT-4V 可以根据一组有时间顺序的图片,还原出事件的过程,甚至预测接下来可能发生的事情,这已经具备了从图像向视频分析的能力。
  AI 大模型向多模态迈进,全产业链有望注入新动能我们认为多模态更符合通用AGI 的演进方向,也有助于大模型算法对世界的多维度认知,从而促使算法能力的进一步改善,有望带来更多的算力消耗和应用场景,同时对AI 算力的可视化和算力优化的需求也将进一步提升。因此,AI 向多模态迈进,有望促使全产业链的需求提升,建议关注:1)AI 算力:润泽科技、浪潮信息、中科曙光、神州数码、拓维信息、华勤技术等;2)AI 多模态算法和应用:科大讯飞、金山办公、万兴科技、虹软科技、当虹科技、拓尔思、同花顺、大华股份等;3)AI 算力可视化:浩瀚深度、恒为科技等。
  建议关注
  基础工具:普源精电、鼎阳科技、坤恒顺维、中望软件、索辰科技、华大九天。
  智能汽车:德赛西威、中科创达、光庭信息、虹软科技、四维图新、万集科技。
  工业软件:宝信软件、中控技术、容知日新、赛意信息、能科科技、鼎捷软件。
  数字能源:朗新科技、国能日新、南网科技、龙软科技、国网信通、远光软件。
  人工智能:金山办公、科大讯飞、海康威视、商汤-W、奥比中光、寒武纪。
  网络安全:深信服、安恒信息、启明星辰、天融信、奇安信-U、信安世纪。
  风险提示
  1)宏观经济变化影响企业信息化支出;2)财政与货币政策低于预期;3)供应链波动加大,影响科技产业发展。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读