AI产业速递(25):生数科技与清华大学联合发布VIDU对标SORA 国内文生视频再迎突破

2024-05-07 07:40:05 和讯  长江证券宗建树/范超
事件描述
4 月27 日生数科技与清华大学联合发布了文生视频模型Vidu,全面对标 OpenAI 的 Sora,可根据文本描述直接生成长达16 秒、分辨率达1080P 的高清视频内容。与OpenAI 的Sora一样,生数科技同样是引入大语言模型底层的 Transformer 架构,在一定程度上解决了文生视频一直以来前后一致性和视频长度过短的问题。从释出视频效果看,Vidu 的生成时长、画面内容的主体一致性等要素均处于国内第一梯队水平。
事件评论
Vidu 得以快速达到行业领先水平背后有以下几点原因:1)强大的班底:Vidu 背后的团队生数科技由清华系AI 公司瑞莱智慧RealAI、蚂蚁集团和BV 百度风投联合孵化创立,强大的班底使得Vidu 拥有了行业头部的技术和研发能力。2)与Sora 高度一致的技术路径使得团队少走弯路:Vidu 采用了团队原创的Diffusion 与Transformer 融合的架构U-ViT,这种架构不采用插帧的多步骤处理方式来生成视频,而是通过单一步骤“端到端”直接生成内容,从文本到视频的转换是直接、连续的,因此能在一定程度上解决现存行业痛点。
“长时长、高一致性、高动态性”是Vidu 最大的特点。时长上看,目前Vidu 可以直接生成16 秒长的视频,处于国内文生视频行业头部水平。一致性上看,在释出的生成视频中,视频画面能保持连贯流畅,且随着镜头的移动,人物和场景在时间、空间中能保持高一致性,不会产生时间上的畸变。在动态性方面,Vidu 的动态镜头在推、拉、移之外,还涉及一段画面中远景、近景、中景、特写等镜头的切换,以及直接生成长镜头、追焦和转场效果。我们认为,以上三大特点或标志着Vidu 已经能够在一定的程度上克服行业痛点,从而加大商业化落地的可能性。
商业模式看,生数科技CEO 唐家渝表示当后期Vidu 可能会存在两条发展路径:一是打造覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向 B 端提供模型服务能力;二是自己面向图像生成、视频生成等场景打造垂类应用,面向游戏制作、影视后期等需求提供订阅制收费服务。我们认为, Vidu 有望沿着Sora 证实有效的技术路径发展,稳步前行,在文生视频多样化的下游辐射领域中寻找商业化奇点。
投资建议:文生视频行业在国内出现突破,关注行业技术进展及商业化落地的场景。
风险提示
1、AI 技术发展不及预期;
2、AI 模型下游需求不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读

          【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。