国内视频大模型Vidu 发布,性能直接对标国际领先水平。4 月27 日,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型Vidu。
Vidu 采用了原创的Diffusion 与Transformer 融合的架构U-ViT,支持文本生成长达16 秒、分辨率高达1080P 的高清视频内容。Vidu 不仅能够模拟真实物理世界,还具备丰富想象力,具备多镜头生成、时空一致性高、遵循物理规律等技术特点。
值得注意的是,Vidu 能够虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。Vidu 主要功能包括多镜头生成、模拟真实世界、保持时空一致性、丰富的想象力、理解中国元素等。这也是继Sora 发布之后,全球率先取得重大突破的视频大模型,性能直接对标国际顶尖水平,并加速功能迭代中。
Vidu 的快速突破源于在U-ViT 的技术长期积累与扎实的工程化能力。Vidu 是由生数科技背后的清华团队支持的科研成果,团队在贝叶斯机器学习和多模态大模型具有长期积累和多项原创性成果。Vidu 的核心技术U-ViT 架构由团队于2022 年9 月提出,是全球首个Diffusion 与Transformer 融合的架构,早于Sora 采用的DiT。
U-ViT 架构不同于图片插帧等处理长视频的方法,感官更为“一镜到底”,视频质量更为连贯与自然。此外,团队较早将U-ViT 应用于图文领域,具有扎实的工程化能力使之在Vidu 实现良好的复用。2023 年3 月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT 架构的大规模可扩展性验证。据甲子光年,Vidu 在视频任务中复用了图文工程实践经验,包括训练加速、并行化训练、低显存训练等,使之训练速度累计提升40 倍。
视频领域已成为海内外大模型升级锚点,多模态成熟后加速向应用端普及。海外方面,Open AI CEO 年初密集“剧透”在视频领域有所突破的GPT-5,且在2 月份发布可生成1 分钟高质量视频的Sora;Google 在推出原生多模态大模型Gemini之后,2 月份推出Gemini 1.5 Pro,使用了MoE 架构将模型的能力首破了100 万极限上下文纪录。国内方面,继Sora 发布后,国内陆续开展文生视频实践。近期,除清华团队的Vidu 发布外,潞晨科技对其开源文生视频模型Open-Sora 进行了大更新,现在可生成16 秒,分辨率高达720P 的视频,且在不同尺寸、视频扩张等多模态的能力加速向Sora 靠齐。我们认为,多模态大模型的成熟有望驱动AIGC应用开发与实践。例如,2024 年4 月,Adobe 旗下的视频剪辑软件Premiere Pro通过引入Sora、Runway、Pika 等 AI 视频工具,实现在视频中添加物体、消除物体以及生成视频片段等能力,未来或将催生更多现象级AIGC 应用的开发。
投资建议。我们判断,以Vidu、Sora 为代表的文生视频多模态大模型加速迭代将推动大模型走向成熟,不仅有利于提升下游AI 应用普及度,而且将进一步刺激未来AI 训练与推理算力需求。建议关注AI 多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技等;AI 算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码等;AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络等;AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。
风险提示:技术发展不及预期、产品落地不及预期、AI 伦理风险等。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论