传媒行业:豆包新发AI视频模型 性能提升显著

2024-09-29 13:20:06 和讯  华泰证券朱珺/吴珺
  字节新发布两款视频AI 大模型,性能显著提升9 月24 日,字节跳动旗下火山引擎在深圳举办AI 创新巡展,发布了豆包两款视频大模型PixelDance V1.4 与Seaweed,并同时面向企业市场开启邀测,公司预计在国庆节后上线火山方舟平台。根据火山引擎巡展发布的内容,我们看到豆包视频生成模型的技术创新体现在:1)通过高效的DiT 融合计算单元,可更充分地压缩编码视频与文本;2)使用了深度优化的Transformer结构,大幅提升了视频生成的泛化能力。我们认为,豆包新模型的发布意味着国产视频生成模型能力再进一步,同时能够在多个内容相关领域实现商业化,建议关注影视及IP 相关受益逻辑,及AI 应用投资机会。
  问题#1:两款模型能力有何差别,分别用于什么场景?
  1)PixelDance V1.4 基于DiT 结构,主要特点在于“叙事连贯性”,支持复杂的多主体互动和时序性动作,能生成高动态、炫酷运镜的视频,并且具备一致性多镜头生成能力,支持多种风格和比例,可生成10 秒的故事短片。
  我们预计或将更侧重于需要叙事的短剧及微电影等行业的创作;2)Seaweed大模型基于Transformer 架构,主要特点在于“高质量视频效果”,能根据用户输入的高清图像分辨率进行适配和保真,Seaweed 可生成5 秒视频,并延长至20-30 秒。我们预计将提升营销、电商等场景制作素材的效率。
  问题#2:这次的视频大模型有何不同?
  对比Sora 及其他国产视频生成大模型,我们认为本次发布的视频生成模型最大的亮点在于:1)攻克多镜头切换的一致性难题,镜头切换时能保持主体、风格、氛围的一致,具备一键生成故事性多镜头短片能力;2)解锁了时序性多拍动作指令与多个主体间的交互能力,能在同一个视频画面中指定不同动作的主体,且主体间动作较为连贯。我们认为,此次发布的新模型实现了较大的技术突破,解决了此前视频生成模型中画面效果类似动态PPT,且人物间交互画面无法实现的痛点,实现了真正的视频生成。
  问题#3:豆包大模型生态进程如何?
  豆包音乐模型、豆包同声传译模型也在巡展中同时发布,此外豆包通用模型pro 和文生图模型、语音合成模型等垂类模型也迎来升级。我们看到随着大模型矩阵的持续完善,C 端应用也在快速落地,如豆包相关的模型技术已经首先应用到了旗下剪映、即梦AI 和醒图工具中。而据火山引擎巡展的数据,截至9 月,豆包语言模型的日均tokens 使用量超过1.3 万亿,多模态方面,日均生成图片5000 万张,日均处理语音85 万小时,相关数据表明C 端落地及渗透速度在持续加速。
  问题#4:新视频模型的发布给传媒行业带来哪些机遇?
  一方面,我们预计字节视频新模型将应用到内容创作相关领域,包括电商营销、动画教育、城市文旅、微电影和短剧等,提升内容生产效率与质量。可大幅降低制作门槛的同时拥有较高质量。我们认为拥有核心导演或创意人才及IP 资源的公司有望受益,建议关注标的:光线传媒、万达电影、芒果超媒等。另一方面,随着模型技术进步及相关人才的成长,AI 应用端有望加速落地,产业迎来催化。建议关注标的:昆仑万维、焦点科技等。
  风险提示:竞争加剧风险,行业监管风险,模型技术进展不及预期风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读