事项:
2025 年2 月3 日,字节跳动研究团队发布了名为OmniHuman 的人体动画生成框架,并发表研究成果论文,展示其在人体动画生成领域的最新成果。
OmniHuman 是一个基于 Diffusion Transformer 的多模态条件驱动的人类动画生成框架,能够通过单张图片和音频、视频等多种信号,生成高度逼真、支持任意比例和风格的动态人类视频。OmniHuamn 的最新发布标志着人工智能技术在人体动画方向上的突破,有望在影视、娱乐、游戏开发等更多实际应用中展现其强大功能。
评论:
运用混合多模态训练,实现更高泛化能力:OmniHuman 采用Omni-ConditionsTraining 的混合多模态训练策略,克服了以往方法面临的高质量数据稀缺问题。通过弱条件助力强条件、提高弱条件训练比例这两大原则,OmniHuman 从大规模数据训练中受益,学习自然的运动模式,从而支持多种输入模式,并显著提升生成质量。
采用DiT 架构,提高视听契合度:OmniHuman 采用基于 DiT 架构的视频生成框架,使模型兼容多种模态的条件注入方式。通过将交叉注意力与视频特征完美融合,实现语言、音频与动作生成的高度契合度,来达到适应多种模态的效果。
OmniHuman 整体效果取得显著优势:在与目前行业领先方案的效果对比中,OmniHuman 表现出色,在多方面超越现有的主流方法。在肖像和身体动画任务中,OmniHuman 使用单一模型表现优于领先的专业模型。通过对数据集中的指标进行平均,OmniHuman 在所有评估指标中取得了最佳结果,反映了其整体有效性。此外,OmniHuman 在特定数据集中的几乎所有指标上表现出色。
消融研究验证训练策略有效性:在音频比例设置上,通过比较OmniHuman 在不同音频比例训练中的表现,得出音频比例设置为 50%效果最佳,将其作为最终训练配置。并通过不同音频比例的消融研究,验证了训练策略的有效性,表明混合数据训练可以显著提高模型性能。
可视化效果显著提升:通过展示更多可视化结果,OmniHuman 在人物动画方面展现强大能力,能保持输入的运动风格。可兼容风格化人形和 2D 卡通角色,甚至可以以拟人化的方式为非人类图像赋予动画效果。
投资建议:AI 大模型本质应落脚垂类应用,国内大模型在全球竞争中崭露头角,看好AI+应用产品力与商业化落地进程。建议关注以下标的:1)办公:金山办公、合合信息、福昕软件、迈富时;2)金融:同花顺、恒生电子、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技、鼎捷数智;5)端侧/穿戴/玩具:萤石网络、云天励飞、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份;9)创意:万兴科技、美图公司、虹软科技;10)教育:
佳发教育、欧玛软件、新开普;11)电商:焦点科技;12)ERP:金蝶国际、用友网络;13)OA:泛微网络、致远互联;14)安全:深信服、永信至诚;15)部署:优刻得、星环科技、网宿科技、汉得信息;16)算力:海光信息、寒武纪、景嘉微等。
风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:刘静 HZ010)
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论