计算机:PIKA1.0应用发放评测 谷歌发布GEMINI多模态大模型 多模态技术百花齐放

2023-12-07 16:30:11 和讯  长江证券宗建树
  事件描述
  Pika 1.0 应用于12 月5 日左右开始针对部分用户开放测试名单。根据X 测试视频显示,相比于Discord 版本,Pika1.0 应用增加了视频画面拓展、镜头速度和方向控制、区域内容替换、提示词安全检测等新功能。
  2023 年12 月6 日,谷歌DeepMind 发布了Gemini 多模态大模型。Gemini 模型是谷歌有史以来性能最强的AI 大模型,按照性能排序可以分为三种不同的版本:1)Gemini Ultra:最大、功能最强的模型,用于数据中心和企业级应用;2)Gemini Pro:可以扩展各种任务,支持包含Bard 等大多数谷歌AI 应用; 3)Gemini Nano:用于手机、PC 等移动端和本地化部署的设备。
  事件评论
  Pika1.0 相较于Discord 社区版本,展示效果超预期。正式版的Pika1.0:1)支持画面按照所选比例扩展,可将原视频拓展至16:9 等多比例,且不影响原有区域内容;2)支持镜头速度和方向控制:可以选择镜头由远及近,或者左右上下顺逆时针调整以及速度的控制;3)选定部分区域内容进行替换修改,可将视频中的框定乌龟变成恐龙或让人物带上墨镜;4)提示词安全检测:避免负面内容的提示词。
  Gemini 综合性能已超越GPT-4V。据谷歌官网显示,在语义理解、数学、编程领域的8项文本能力测试任务中,Gemini 模型有7 项文本能力已超越GPT-4V 模型;在图像、视频、音频的10 项多模态能力测试中,Gemini 模型全部超越了GPT-4V 的能力,其中视频与音频性能的领先幅度较大。
  多模态应用落地已初见成效。当前时点,应用落地已成为多模态模型的核心矛盾。受数据类型和训练范式影响,多模态模型对算力的需求更高,而算力的高成本致使多模态模型对商业化落地的需求更强烈。本次Pika1.0 应用展示效果超预期,具备快速商业化的可能性,验证了多模态应用落地已初见成效,未来Pika 等多模态应用有望在影视、广告、游戏等领域快速渗透。
  多模态模型有望带动新一轮算力需求。从算力角度来看,多模态模型的训练数据主要由图像组成,而图像数据的规模相比文本数据量大幅度提高,因此对算力的需求也更高。当前算力仍是阻碍AI 模型训练端与推理端的主要瓶颈之一,多模态模型落地有望催生AI 公司开启新一轮算力端的需求。因此建议关注华为昇腾链厂商。
  具身智能技术有望加速发展。谷歌在人形机器人领域有较为深厚的技术积累,接连推出了PaLM-E、RT-2 等人形机器人模型。多模态模型是具身智能实现端到端系统的必经之路。
  将图像数据作为模态融入后,机器人视觉将成为思维链的一环,可以实现感知层和决策层的无缝衔接。本次Gemini 多模态模型推出有望带动谷歌在具身智能领域的快速发展。
  风险提示
  1、多模态模型技术推进不及预期;
  2、多模态模型商业化落地的过程存在风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。