计算机行业点评:OPENAI发布文生视频大模型SORA 在全球视频大模型领域取得里程碑式进展

2024-02-18 10:40:08 和讯  平安证券闫磊/付强/黄韦涵
  事项:
  当地时间2月15日,OpenAI在官网正式发布Sora,根据OpenAI官网信息,Sora是一个人工智能模型,能够通过文本提示生成逼真且富有想象力的视频。
  平安观点:
  Sora文生视频功能强大,能够通过文本提示生成长达1分钟的视频。根据OpenAI官网介绍,作为文生视频大模型,Sora可以在保持视觉质量和遵循用户的文本提示的情况下,生成长达1分钟的视频。在OpenAI的官网页面,OpenAI展示了通过以下文本提示词生成的1分钟视频:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着黑色手提包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。Sora生成的这1分钟的视频体现了文本提示的精确主题和背景细节的复杂场景,准确展现了角色和视觉风格。以往的图像和视频的生成方法,通常会通过调整大小、裁剪或修剪等方法将视频调整为标准尺寸,比如分辨率为256X256的4秒视频。相比以往的视频生成方法,Sora的文生视频能力显然更加强大,Sora可以采样宽屏1920x1080视频、垂直1080x1920视频以及介于两者之间的所有视频,这使得Sora 可以直接以原生宽高比为不同设备创建内容。另外,Sora目前能够生成的视频时长可长达1分钟,遥遥领先于以往的视频生成时长。
  Sora呈现良好的多模态能力,不仅支持文本生成视频,还具备图像生成视频等能力。另外,Sora还有生成图像的能力。Sora是一个扩散模型,与OpenAI的GPT模型类似,Sora也是使用transformer的架构。OpenAI将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于GPT中的令牌。通过统一表示数据的方式,OpenAI可以在比以前更广泛的视觉数据上训练Sora,涵盖不同的持续时间、分辨率和纵横比。Sora建立在OpenAI过去对DALL·E 和GPT模型的研究之上。因此,Sora能够在生成视频时更忠实地遵循用户的文本提示。Sora表现出良好的多模态能力,不仅支持文本生成视频,还能够根据提供的图片作为输入来生成视频。在OpenAI官网,OpenAI演示了根据DALL·E2和DALL·E3的图片生成的视频。Sora还能够扩展生成的视频,在时间上向前或向后扩展,并具有连接视频等视频编辑的能力。另外,Sora还有生成图像的能力,Sora可以生成不同尺寸大小的图像,分辨率最高可达2048X2048的水平。
  Sora在理解和模拟物理世界方面取得了积极进展。在OpenAI官网发布的信息中,OpenAI并不止于将Sora定位为一个文生视频的大模型,OpenA  I将Sora定位为模拟世界的视频生成模型。通过训练Sora,OpenAI正在教授人工智能理解和模拟运行中的物理世界,目标是训练模型帮助人类解决需要现实世界交互的问题。在模拟物理世界方面,Sora取得了积极的进展。在与现实世界互动方面,Sora有时能够以一些简单的方式模拟现实世界的状态。比如,画家可以在画布上留下新的笔画,并且这些笔画随着时间的推移会持续存在。再比如,视频中人可以吃汉堡并在汉堡上留下咬痕。另外,在模拟数字世界方面,在视频游戏中,Sora可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提及《我的世界》的标题提示来让Sora实现。OpenAI称,Sora当前所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。当然,Sora仍有很多局限性。比如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。
  目前,Sora并未完全开放。在Sora可用之前,OpenAI将采取一些重要的安全措施。OpenAI正在与红队成员(错误信息、有害的内容和偏见等领域的领域专家)合作,这些红队成员将以对抗性的方式测试Sora模型的安全性。
  投资建议:OpenAI发布文生视频大模型Sora,在全球视频大模型领域取得里程碑式进展。当前,全球范围内大模型领域的竞争依然白热化,这将持续拔升大模型的整体能力水平。大模型需要大算力,大模型算法的迭代升级将为全球和中国AI算力市场的增长提供强劲动力。在美国对华半导体出口管制升级的背景下,我国国产AI芯片产业链将加快成熟,相关AI芯片和服务器厂商将深度受益。另外,在应用端,我国国产大模型能力持续升级,AIGC产业未来发展前景广阔。在标的方面:
  1)算力方面,推荐浪潮信息、中科曙光、紫光股份、海光信息,建议关注工业富联、寒武纪、景嘉微;2)算法方面,推荐科大讯飞;2)应用场景方面,强烈推荐中科创达、恒生电子、盛视科技,推荐金山办公,建议关注万兴科技、同花顺、彩讯股份;4)网络安全方面,强烈推荐启明星辰。
  风险提示:1)国内大模型算法发展可能不及预期。2)AI 算力供应链风险上升。3)大模型产品的应用落地低于预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读