事件描述
2 月16 日凌晨,OpenAI 全新发布文生视频模型Sora,在生成长度、语义理解、生成质量等方面实现重大突破,进一步打开了商业化空间。生成长度方面,Sora 模型目前支持最长生成60秒的视频,远高于过去的10S 左右;语义理解方面,Sora 已经可以在一定程度上理解偏意象的关键词表述并生成符合逻辑的画面,较此前第三方模型有巨大进步;生成质量方面,画面的一致性、可控性、丰富程度都较之前有明显提升。我们认为,成像质量的提高+生成时长瓶颈的突破将大幅打开下游商业化空间。
事件评论
从释出视频看,Sora 在现有行业难点方面出现了明显的进步。截至2023 年底Pika1.0 推出之时,文生视频行业目前存在几个明显问题:一是语言控制能力较弱,具体表现如生成视频图像与文字不符;二是单帧画面细节不清晰,即成像质量不高,细节较少;三是连续帧的动作不连贯,即可控性不高,存在不同程度的畸变。但从目前释出的视频看,不管是从细节亦或是整体连贯方面,Sora 都大幅领先于目前所有工作室。值得一提的是,粹通过模型的尺度扩展,Sora 已经在训练过程中自然涌现了许多令人兴奋的新能力。这些功能使得Sora 能够模拟现实世界中的人物、动物和环境等某些方面。目前Sora 的局限性包括比如例如不能准确地模拟许多基本相互作用的物理过程,或在某些交互场景中并不能总是产生正确的对象状态变化。
Sora 在生成的时间上突破了10 秒左右的限制,结合成像质量的提高,或将大幅打开商业空间。除去成像质量不高的问题之外,生成时长较短亦是限制行业商业化落地的主因。
此前文生视频行业在市场方面几乎无法使用技术手段突破10 秒的限制,因此难以对下游潜在落地行业(如影视业)产生较大的帮助,从而大大限制了其商业化的空间。而Sora通过一次性生成关联性较好的多帧,突破了10s 的限制,生成程度达到了分钟级别,这对未来商业化空间的撬动产生了本质的变化。
Sora 展现出与竞品的代际差距或将对现有的文生视频、文生图行业格局产生较大的影响。
文生视频行业角度,Sora 现有的视频明显领先于行业,或将率先趟出文生视频的商业化途径,从而影响现有的行业格局。而从文生图行业角度,过去由于文生视频的单帧成像质量一般,与文生图行业龙头Midjourney 等行业龙头差距较大,因此两条赛道暂时处于相对独立发展的阶段。但目前Sora 的文生图质量已经逼近文生图行业头部水平,将对现有的第三方纯文生图公司产生较大的威胁。
重点关注统一编码+窗口注意力架构对于文生视频行业的推动。统一编码(unifiedrepresentation)指的是将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练。窗口注意力架构是一种基于Transformer 的潜在视频扩散模型(latentvideo diffusion models,LVDM)方法,用于提高记忆和训练效率。
风险提示
1、AI 技术发展不及预期风险;
2、行业监管风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论