DeepSeek-V3 正式发布,性能对齐海外头部模型:12 月26 日,深度求索DeepSeek 发布了其DeepSeek-V3 模型。该模型是一款强大的混合专家(MoE)语言模型,拥有 671B 参数,激活37B,在14.8T token 上进行了预训练。在多种任务中表现卓越,训练高效且成本效益显著。DeepSeek-V3 在多项基准测试中表现优异,比肩世界顶级模型。
国内头部自研开源模型,创新引入训练新策略: DeepSeek-V3 的基础架构仍在Transformer 架构内, 同时采用了多头潜在注意力( MLA )和DeepSeekMOE(DeepSeek 混合专家)机制,以实现更高效推理和更具经济性价比的训练。DeepSeek-V3 本次创新在于额外引入了无辅助损失的负载均衡策略(auxiliary-loss-free load balancing strategy)和多token 预测策略(MTP),两者对模型训练过程进行了创新性的优化。在DeepSeek-V3 后训练过程中,DeepSeek 结合了监督微调(SFT)和强化学习(RL),使得模型可以更好的与人类偏好对齐,增强其泛化能力,并更好地处理未见过的数据和任务。
完整训练仅需278.8 万H800GPU 小时,高性价比追求普惠AGI:
DeepSeek-V3 的完整训练仅需278.8 万H800GPU 小时,包含预训练、上下文长度扩展和后训练。同时,DeepSeek-V3 采用了FP8 混合精度训练框架,这是首次在超大规模模型上验证FP8 训练的可行性和有效性。综合评估表明,DeepSeek-V3 是目前最强的开源模型,性能可与闭源模型如GPT-4o-0513 和Claude-3.5-Sonnet-1022 相媲美。另外,随着性能更强、速度更快的 DeepSeek-V3 更新上线,DeepSeek-V3 模型 API 服务定价也将调整为每百万输入tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元,是当前模型性能/价格比最优的模型服务。
风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王治强 HF013)
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论