互联网传媒周观点：LECUN谢赛宁首发全新视觉多模态模型 UNIQUE3D开源图转3D模型

2024-06-29 09:15:06 和讯上海证券陈旻

　　主要观点
　　LeCun 和谢赛宁共同提出一种全新的SOTA MLLM——Cambrian-1，开创了以视觉为中心的方法来设计多模态模型，同时全面开源了模型权重、代码、数据集，以及详细的指令微调和评估方法。在寒武纪大爆发中，视觉的出现对于早期动物至关重要，捕食、避险、引导进化，穿越时间，组成了多彩的世界。对应到大模型的学习，一方面虽然更大的规模可以增强多模态的能力，但视觉方面的研究和设计似乎没有跟上；另一方面过度依赖语言，则可能会成为多模态学习研究的瓶颈。研究人员基于之前的设计框架，使用了三种参数大小的LLM（LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B）进行了训练，视觉部分结合了四种模型（SigLIP、CLIP、DINOv2 和OpenCLIP ConvNeXt），训练过程中采用了250 万条适配器数据，以及700 万条指令微调数据，训练一个高性能的Cambrian 模型。
　　Unique3D 是3D 生成圈的一个开源模型，可将一张图30 秒高质量转3D，基于该模型打造的产品还即将上线一张图生成3D 全景图，一键将视频人物替换为生成角色等功能。Unique3D 整个流程分三个主要阶段：多视图生成、高分辨率上采样、3D Mesh 重建，主打高保真度、高一致性、高效率单图转3D。比起以往基于Score DistillationSampling（SDS）等方法，Unique3D 解决了模型生成需要长时间优化，几何质量差，存在不一致性的问题。而且Unique3D也优化了基于多视图扩散模型方法受限于局部不一致性和生成分辨率，难以产生精细的纹理和复杂的几何细节的问题。
　　Unique3D 关注3D 应用场景以及它的下一步，希望通过如做动画及新的交互方式实现4D，让创作者创作出真正有表达力的IP 或是数字媒体内容，接下来重点关注作品的艺术性和IP 潜力，做好创作者社群。在大语言模型百花齐放阶段，我们认为国内大厂持续投入大语言模型，有望打造出更适合中国的AI 生产力工具。目前AIGC 行情已有所分化，未来主题性机会有望逐步切换向案例兑现、甚至基本面兑现，龙头及龙头板块需重点关注，持续推荐具备基本面优势的【游戏】板块。
　　投资建议
　　基于我们“大模型+小模型+应用及内容”的研究框架，我们认为从基本面受益的角度上看，需沿着目前成熟大模型模态输出的范围选择标的，重点关注AI+文本/虚拟人板块，其次关注AI+图片（大模型+小模型）；从价值重估的角度上看，需沿着掌握优质数据或内容（多模态数据）的范围选择标的，重点关注AI+内容/IP/版权板块。
　　AI行情分化趋势下，建议重点关注基本面优异的【游戏】及【出版】板块：
　　1、AI：建议关注【昆仑万维】；推荐【创业黑马】。
　　2、MR：推荐【风语筑】。
　　3、游戏新模式：建议关注【吉比特】；推荐【完美世界】、【三七互娱】。
　　4、影视新模式：建议关注【上海电影】、【中文在线】、【华策影视】、【掌阅科技】、【光线传媒】。
　　风险提示
　　政策边际优化的程度不及预期、AI推进进度不及预期、AIGC商业模式或落地场景效果不及预期、内容监管趋严。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约