核心观点
近期,“郭德纲说英语相声”等一系列AI 视频引发高关注度,AI 不仅对视频内容进行翻译,同时自动拟合声线、口型。
该功能来自AI 初创公司Heygen,近期访问量大增。Heygen 在9月新增“视频翻译”功能,根据Similarweb,9 月Heygen 的访问量环比高增92%至732 万,自9 月中旬超过AI 视频工具Runway。
该AI 功能是现阶段AI 多模态能力的集大成体现。整合了一系列多模态能力,包括文字翻译、音色模仿、唇形拟合等。
我们认为,1)既能丰富C 端用户的娱乐传播,有望成为AI 时代小咖秀;2)也提升专业创作者的内容生产效率,用于影视、教育、营销等多领域。
从最初的“AI 孙燕姿”,到妙鸭相机,再到Heygen 出圈,AI 多模态应用正遍地开花,具备爆款应用的潜质。
关注:1)AI 多模态相关产品:万兴科技、美图、焦点科技、易点天下、汤姆猫等;2)同时关注游戏、影视、营销&电商、教育等领域的多模态应用进展。
事件
近期,一系列AI 生成视频在全网引起高关注度,如郭德纲说英语相声、Taylor Swift 说中文等,具备高度匹配的唇形,以及逼真的神态与音调。
简评
1、AI 视频“音似、神似”,全网关注度高。例如,郭德纲说英语相声、马保国用英语讲功夫段子等视频,与原版视频相比,不仅完全保留了语气、语音、肢体语言、神态,还让真人明星说的英文,在唇形上完全同步,画面流畅、自然,具备高逼真度。除了说英文,也有部分视频做到让国外真人明星“声情并茂讲中文”,如Taylor Swift、赫敏(哈利波特女主)、憨豆先生等。
2、Heygen:不超过1G 视频样本,即可实现效果逼真的AI 视频。上述视频均由AI 初创公司Heygen 推出的产品实现,据Heygen 创始人Joshua Xu 的博文,这是基于9 月初上线的新功能“视频翻译”,当前仍在Beta 测试阶段。用户仅需上传不超过1G 的视频,即可让AI 自动生成翻译后的视频,并实现语言以及唇形的逼真转化,目前支持输出中英文等15 种语言。据官网,可生成总时长15 分钟视频的月套餐,需29 美元。
3、由国内AI 初创公司打造,技术及商业化已初具形态。Heygen 由诗云科技开发,是深圳的初创公司,于2020年12 月成立,当前团队约30 人,创始人Joshua Xu 毕业于计算机名校卡内基梅隆大学。据36 氪,已获得红杉中国、真格基金等近千万投资,在技术及商业化方面已初具形态:
1)技术:自研多模态模型,使用门槛低。Heygen 基于的模型,为公司自研的多模态内容生成引擎“Surreal Engine”,于2022 年7 月推出,能将内容生产分为理解、视框化、渲染三个核心环节,并在人脸驱动、文字生语音等技术支持下,完成文字到语音等多模态内容转化。相比于Epic Game 的Unreal Engine 和Nvidia 的Omniverse,SurrealEngine 使用门槛更低,可让普通用户轻松创作高维度、可交互的内容。AI 视频翻译功能的声音相关技术,则借助了AI 文本转语音公司ElevenLabs。
2)商业化:生成虚拟人视频的服务具备高性价比。除了新增的视频翻译功能,Heygen 本身提供了多种工具,便于虚拟人视频的合成,例如虚拟人模板、视频模板、声音模板等,也允许用户自行上传原件定制,可生成总时长15 分钟视频的月套餐,同样需29 美元,也支持对声音克隆、人像精调等服务单独付费,相比常规制作方式具备性价比。官网显示Heygen 已积累多个知名客户,如埃森哲、亚马逊、英伟达、Salesforce、哥伦比亚大学。
4、Heygen 访问量快速提升
据Similarweb,今年9 月Heygen 官网访问量732 万,环比8 月上涨92%,与知名AI 视频生成工具Runway差距逐步收窄。且在9 月中旬至10 月底,Heygen 访问量已超过Runway。
此外,Heygen 商业化方面进展顺利,据Joshua Xu 在4 月发布的博文,Heygen 在22 年7 月上线后的7 个月内,实现了100 万美元的ARR(年度经常性收入)。我们认为有望随着“视频翻译”功能的破圈持续增长。
5、AI 视频工具能做什么?
C 端:丰富普通用户的娱乐分享、社交玩法,或将成为AI 时代的小咖秀。用户可以借助Heygen 的相关技术,让自己喜欢的明星用特定的语言,重新演绎经典片段,重构娱乐、生活记录、社交等短视频的创作,增添趣味性,与2015 年火爆全网的短视频应用小咖秀类似。对于小咖秀,用户可配合其提供的音频字幕,像唱KTV 一样创作搞怪视频,发布3 个月内日活即达500 万、总用户量1500 多万、日均原创短视频达120万条,APP Store 娱乐免费榜高居前列。我们认为,Heygen 等AI 视频工具,或也能激发用户创作动力,实现应用的快速普及。
B 端:提升专业创作者的内容生产效率。提升影视、电商、营销、教育、游戏等领域的内容制作效率。例如,帮助国产片实现唇形及语音同步转化、让直播电商、教育或智能客服等中的虚拟人,以更加逼真自然的形态同用户交流等。
6、AI 多模态应用,正遍地开花。从此前的“AI 孙燕姿”,到妙鸭相机,再到Heygen,AI 多模态应用正遍地开花,具备成为爆款应用的潜质。其中,Heygen 以外,Speaking.AI、Lovo AI 等多家公司都在探索相关的AI 应用,如Speaking.AI 基于10 秒的录音或10M 以内音频文件,或使用马斯克、成龙等明星的声音,将给定的文本转化为一致的声音,相关技术已被ChatGPT 的语音交互技术所采用。
7、 相关公司
万兴科技:将发布多媒体大模型“天幕”,参数百亿级,由视频大模型、音频大模型、图片大模型、文本大模型组成,具备一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。
美图:AI 数字人生成工具DreamAvatar 已上线,“AI 演员”数字人服务,能基于视频素材,进行人体检测、跟踪、擦除、替换、背景修复,自动把真人替换成同步的数字人。
易点天下: AI 营销平台KreadoAI 上线,主要功能包括AI 数字人口播视频、AI 生成营销文案等功能,V2.0 版本新增包括真人语音克隆、真人形象克隆、PPT 文件生成数字人口播视频等7 个功能。
焦点科技:公司将持续迭代AI 麦可,并计划在未来的版本中增加视频处理、AI 数字营销和24 小时AI 客服等相关功能。
汤姆猫:国内研发团队与西湖心辰合作的多模态AI 汤姆猫产品已初步实现拍照识物、英文口语启蒙、兴趣引导、科普教育、AI 生图、AI 生成绘本、情境对话等多个功能。
同时关注多模态技术,在游戏、电商、营销、影视、教育等领域的应用进展。
1) 游戏:三七互娱、吉比特、恺英网络、盛天网络、巨人网络、完美世界、神州泰岳 2) 电影&电视剧:光线传媒、博纳影业、华策影视;视频&动漫:芒果超媒、捷成股份、中文在线3) 电商&营销:蓝色光标、遥望科技、光云科技4) 教育:世纪天鸿、南方传媒、奥飞娱乐
风险提示:生成式AI 技术发展不及预期、各领域技术融合进度不及预期的风险、算力支持程度不及预期、数据质量及数量支持程度不及预期、用户需求不及预期、技术垄断风险、原始训练数据存在偏见风险、算法偏见与歧视风险、算法透明度风险、增加监管难度风险、政策监管风险、商业化能力不及预期、相关法律法规完善不及预期、版权归属风险、深度造假风险、人权道德风险、影响互联网内容生态健康安全风险、企业风险识别与治理能力不足风险、用户审美取向发生变化的风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论