通信行业动态点评:OPENAI推出文生视频模型SORA AI模型发展迎来里程碑

2024-02-20 16:00:08 和讯  长城证券侯宾/姚久花
事件。北京时间2 月16 日,OpenAI 发布新文生视频模型Sora。Sora 能够生成60s 的高保真视频,同时保持视频的质量并遵守用户指示的完整。
Sora 模型图像视频生成能力强大,引领构建世界通用模型新浪潮。2 月16日,OpenAI 推出新的文生视频模型Sora,并在官网发布了48 个模型生成视频。Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。OpenAI 将Sora 定义为作为世界模拟器的视频生成模型,利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。Sora 通过视觉补丁有效表示视觉数据模型,并且补丁作为高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。
根据OpenAI 研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
高效的语言理解能力与强灵活性,推进对物理世界理解能力提升。Sora 是一个扩展模型,采用Transformer 架构,在包括语言建模、计算机视觉、图像生成等方面都呈现了卓越的扩展性。Sora 可以采样宽屏1920x1080p 视频、垂直1080x1920 视频以及介于两者之间的所有视频,可以直接以其原生宽高比为不同设备创建内容。Sora 利用OpenAI 的GPT 与DELL E3 进行语言理解与图像动画的升级,利用GPT 将简短的用户提示转换为较长的详细字幕,然后发送到视频模型,使Sora 能够生成准确遵循用户提示的高质量视频。Sora也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使Sora能够执行各种图像和视频编辑任务-创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等,并且在生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中保持一致移动。同时,Sora还能够生成图像,通过在时间范围为一帧的空间网格中排列高斯噪声块来实现。Sora 可以生成各种尺寸的图像,分辨率高达2048x2048。
OpenAI 正在尝试教授人工智能理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要现实世界交互的问题。虽然Sora 作为文生视频模型呈现出卓越的视频图像处理能力,但仍存在较多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化,以及长时间样本中出现的不连贯性或对象的自发出现。我们认为,随着大模型计算能力的不断提升,未来扩展模型或将能持续开发物理和数学世界1。
建议关注的标的:云计算厂商:微软、谷歌、亚马逊、Meta、苹果、阿里云、华为云;芯片:英伟达、高通、ARM、英飞凌、意法半导体、TI;元宇宙:Unity、Roblox;IDC:Equinix、DLR、阿里;激光雷达:Velodyne、Luminar、Ouster、Quanergy、Lumentum。
风险提示:AI 业务研发不及预期风险;云计算市场竞争加剧风险;宏观经济环境波动风险;核心技术人员流失风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读