AI产业速递(24):商汤第一代大模型全面对标GPT-4TURBO 国产大模型GPT-4时刻来临

2024-04-25 07:30:06 和讯  长江证券宗建树/范超
  事件描述
  4 月23 日下午,商汤科技发布“日日新SenseNova”5.0 多模态大模型系列,采用混合专家(MoE)架构,支持多达10T Tokens 中英文与训练数据,推理合成数据高达数千亿Token,推理时上下文窗口可以有效到200K 左右,拥有端侧扩散和语言模型,知识、推理、数学、代码等综合能力全面对标GPT-4 Turbo。国产大模型即将迎来密集更新换代期, GPT-4 时刻将来临。
  事件评论
  商汤新一代大模型能力综合能力全面对标GPT4-Turbo,国产大模型迎来GPT-4 时刻。
  新一代大模型“日日新5.0”主要包含几大更新亮点:
  1)采用混合专家架构(MoE),这将是下一代大模型迭代的主流路径之一。
  2)基于超过10TB tokens 训练,且使用大量合成数据。为了解决数据集质量的瓶颈,日日新5.0 训练用到10TB+ tokens 的中英文预训练数据,进行了精细设计的清洗处理,形成高质量基础数据。此外,由于合成思维链数据是激活大模型的强理解推理能力的关键,商汤在预训练过程中大规模采用数千亿tokens 量级的逻辑型合成数据。
  3)推理上下文窗口达到200K,商业化落地可能性增强。
  从综合能力上看,全新的“日日新5.0”在文科、理科方面均有提升,中文理解、知识储备、数理逻辑、代码编程等方面的能力在主流客观评测上达到GPT-4 Turbo。我们认为本次迭代或标志着国内大模型厂商即将迎来GPT-4 时刻。
  端侧模型跨级尺度领先,同时推出端云协同方案大力降低推理成本。商汤推出SenseChat-Lite 版本端侧模型,可落地手机、平板、VR 眼镜、智能汽车等端侧。同时商汤端侧大语言模型的推理速度具备较明显的优势,发布会上数据显示其首次加载低于0.4 秒,解码于30tokens/秒,号称“同等尺度性能最优,跨级尺度全面领先”。同时商汤还推出端云协同解决方案,进行高性能计算,处理复杂的任务。该方案支持在不同的设备和平台上运行,使得模型可以在各种终端上进行部署和应用,同时实现在离线状态下仍能保障服务和应用。
  模型能力提升或将大幅提高商业化落地的概率。发布会展示最新大模型多行业落地成果的案例,包含办公、金融、拟人领域。我们认为,大模型能力的提升或加速更多应用场景达到商业化奇点,应用侧加速可期。
  投资建议:国产大模型性能持续攀升,货币化关键节点渐进,建议关注 AI 模型相关厂商与核心行业应用厂商;模型参数量的提升在训练和推理阶段对 AI 算力的需求也随之提升,建议关注 AI 算力相关厂商。
  风险提示
  1、AI 技术发展不及预期;
  2、AI 模型下游需求不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读

          【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。