事件:北京时间2 月16 日凌晨,OpenAI 发布旗下首个文生视频模型Sora。Sora 可以直接输出长达60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,对语言有深刻理解,能够准确领会用户的提示。
OpenAI 发布首个文生视频模型Sora。Sora 是基于difussion 扩散的transformer 模型,凭借其强大的通用视觉数据处理,可以生成跨越不同持续时间、纵横比和分辨率的图像视频,最多可以连续生成60 秒(一分钟)的高清视频。Sora 是OpenAI 在GPT-4 及DALL-E 等语言和图像模型的基础上进一步的创新突破,该模型能够从类似于静态噪音的视频开始,逐渐去除噪音生成视频。此外,该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景,能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。
训练采样灵活,打破此前扩散模型局限性。Sora 采用的是DALL·E 3 的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。Sora 还能够为现有图片赋予动态效果或延伸视频内容的长度。Sora 的灵感来自于语言模型,参照LLM 的文本标记方法,Sora 采用了视觉补丁方法,即把用于训练的图片、视频压缩为多个patch,把patch 作为token 进行训练,而非在图像域上进行训练,因此无需对视频的大小、时长进行限定、裁剪,训练端不会接受到残缺数据。
跨时代文生视频模型,有望推动硬件需求进一步提升。Sora 基于图片做长视频生成,再基于生成视频做extend,其所需token 数量相较于文本及图片模型的推理,有望成数量级增长,我们判断Sora 将刺激推理算力需求将持续上升。此外,推理端token 增加、算力需求的增长,也对显存及带宽提出更高要求,预计将拉升400G 光通信技术在以太网中的应用,并有望推动800G 乃至1.6T 光通信技术的应用。
投资建议:建议关注AI 大模型发展带来的产业链机遇1)算力产业链:通富微电、工业富联、沪电股份、寒武纪、海光信息;2)存储:香农芯创、兆易创新、东芯股份、普冉股份;3)AI 多模态:大华股份、海康威视;
4)先进封装:通富微电、长电科技、兴森科技、华海诚科、赛腾股份等。
风险提示:需求不及预期、产能瓶颈的束缚、大陆厂商技术进步不及预期、中美贸易摩擦加剧、研报使用的信息更新不及时。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论