传媒行业跟踪报告:AI产品测评体验系列报告:快手可灵:国产首发对标SORA的DIT架构文生视频AI模型

2024-06-07 20:55:06 和讯  华创证券刘欣
  快手可灵是快手于2024 年6 月6 日推出的一款AI 视频生成大模型的AI 视频。可灵为快手AI 团队自研,基于快手在视频技术方面的多年积累,采用类似Sora 的DiT 技术路线,结合多项自研技术创新,效果对标Sora。
  从技术角度看,快手可灵结合多项自研技术创新,采用了原生的文生视频技术路线,替代了图像生成+时序模块的组合,实现了可灵生成时间长、帧率高,能准确处理复杂运动的能力。在完成度上,能够模拟物理世界特性,完成大幅度的合理运动;在创新度上,具备强大的概念组合能力和想象力,能够将用户丰富的想象力转化为具体的画面;在参数表现上,不仅支持生成长达2 分钟的30fps 且具备1080p 分辨率的超长视频,同时支持多种宽高比。
  从功能体验看,快手可灵大模型具备强大的视频生成能力让用户可以轻松高效地完成艺术视频创作,通过文字描述,可灵生成的视频可实现1)大幅度的合理运动:可灵采用3D 时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律,复杂、大幅度的时空运动也能准确刻画;2)长达2 分钟的视频生成:得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2 分钟的视频,且帧率达到30fps;3)模拟物理世界特性:基于自研模型架构及ScalingLaw 激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频;4)强大的概念组合能力:基于对文本-视频语义的深刻理解和Diffusion Transformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实的世界;5)电影级的画面生成:基于自研3D VAE,可灵能够生成1080p 分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现;6)支持自由的输出视频宽高比:可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需要。
  从行业视角看,快手作为头部短视频公司积极布局AI,其产品表现不仅展现了快手在AI 大模型技术方面的深厚积累,也体现了国产AI 视频模型的技术能力。我们看好AI 技术持续迭代,中国厂商技术加速追赶,看好AI 视频应用加速发展与商业化探索,看好内容创作的门槛降低。
  风险提示:政策监管趋严,AI 技术迭代发展不及预期,AI 产品商业化不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读