计算机行业：字节跳动发布OMNIHUMAN：人体动画最新成就

2025-02-10 08:25:05 和讯华创证券吴鸣远

　　事项：
　　2025 年2 月3 日，字节跳动研究团队发布了名为OmniHuman 的人体动画生成框架，并发表研究成果论文，展示其在人体动画生成领域的最新成果。
　　OmniHuman 是一个基于 Diffusion Transformer 的多模态条件驱动的人类动画生成框架，能够通过单张图片和音频、视频等多种信号，生成高度逼真、支持任意比例和风格的动态人类视频。OmniHuamn 的最新发布标志着人工智能技术在人体动画方向上的突破，有望在影视、娱乐、游戏开发等更多实际应用中展现其强大功能。
　　评论：
　　运用混合多模态训练，实现更高泛化能力：OmniHuman 采用Omni-ConditionsTraining 的混合多模态训练策略，克服了以往方法面临的高质量数据稀缺问题。通过弱条件助力强条件、提高弱条件训练比例这两大原则，OmniHuman 从大规模数据训练中受益，学习自然的运动模式，从而支持多种输入模式，并显著提升生成质量。
　　采用DiT 架构，提高视听契合度：OmniHuman 采用基于 DiT 架构的视频生成框架，使模型兼容多种模态的条件注入方式。通过将交叉注意力与视频特征完美融合，实现语言、音频与动作生成的高度契合度，来达到适应多种模态的效果。
　　OmniHuman 整体效果取得显著优势：在与目前行业领先方案的效果对比中，OmniHuman 表现出色，在多方面超越现有的主流方法。在肖像和身体动画任务中，OmniHuman 使用单一模型表现优于领先的专业模型。通过对数据集中的指标进行平均，OmniHuman 在所有评估指标中取得了最佳结果，反映了其整体有效性。此外，OmniHuman 在特定数据集中的几乎所有指标上表现出色。
　　消融研究验证训练策略有效性：在音频比例设置上，通过比较OmniHuman 在不同音频比例训练中的表现，得出音频比例设置为 50%效果最佳，将其作为最终训练配置。并通过不同音频比例的消融研究，验证了训练策略的有效性，表明混合数据训练可以显著提高模型性能。
　　可视化效果显著提升：通过展示更多可视化结果，OmniHuman 在人物动画方面展现强大能力，能保持输入的运动风格。可兼容风格化人形和 2D 卡通角色，甚至可以以拟人化的方式为非人类图像赋予动画效果。
　　投资建议：AI 大模型本质应落脚垂类应用，国内大模型在全球竞争中崭露头角，看好AI+应用产品力与商业化落地进程。建议关注以下标的：1)办公：金山办公、合合信息、福昕软件、迈富时；2)金融：同花顺、恒生电子、新致软件；3)大模型：科大讯飞、三六零、第四范式；4)工业：中控技术、索辰科技、鼎捷数智；5)端侧/穿戴/玩具：萤石网络、云天励飞、中科创达、汉王科技；6)医疗：润达医疗、卫宁健康、晶泰控股；7)法律：金桥信息、华宇软件、通达海；8)邮箱：彩讯股份；9)创意：万兴科技、美图公司、虹软科技；10)教育：
　　佳发教育、欧玛软件、新开普；11)电商：焦点科技；12)ERP：金蝶国际、用友网络；13)OA：泛微网络、致远互联；14)安全：深信服、永信至诚；15)部署：优刻得、星环科技、网宿科技、汉得信息；16）算力：海光信息、寒武纪、景嘉微等。
　　风险提示：商业化后表现不及预期，用户付费意愿低，行业技术迭代速度较快。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：刘静 HZ010）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约