和讯网 > 股票 > 上市公司 > 正文

豆包大模型披露评测成绩，较上一代“云雀”提升19%

2024-05-27 10:15:44 新浪网

新闻摘要

新浪科技讯5月27日上午消息，在火山引擎最新披露的一份产品资料中，豆包模型团队公布了一期内部测试结果在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，相比上一代模型云雀Skylark2的64.5分提升了19%，也优于同期测试的其他国产模型。据悉，此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。综合11个公开评测集上的测试成绩，豆包通用模型-pro的总分为76.8分

新浪科技讯 5月27日上午消息，在火山引擎最新披露的一份产品资料中，豆包模型团队公布了一期内部测试结果：在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k 的总分为76.8分，相比上一代模型云雀Skylark2 的64.5分提升了19%，也优于同期测试的其他国产模型。

据悉，此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skylark2 以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。

评测结果显示，在评估代码能力的两个评测集 HumanEval 和 MBPP 上，豆包相比上一代模型提升了50%左右；在专业知识和指令遵循的评测集上，豆包分别获得33%和24%的性能提升，同时也是得分最高的国产模型。

综合11个公开评测集上的测试成绩，豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩，GPT-4在这些评测集上的总分为80.1分，相比国产模型仍有一定领先优势。（罗宁）

责任编辑：郝欣煜

（责任编辑：董萍萍）

看全文

写评论已有条评论跟帖用户自律公约

提交还可输入500字

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

加仓还是减仓？专家免费股票走势判断
还可免费试听直播

扫码添加专业投顾免费领取

相关推荐

国产游戏审批放行96款：恺英网络《百工灵》领衔
刘畅 05-23 19:00
腾讯云大模型价格大幅下调提升模型性能至领先：混元系列API调价至最高降87.5%
董萍萍 05-23 09:45
通义千问GPT—4级主力模型降价97%
张晓波 05-21 11:00
腾讯混元大模型升级：部分中文能力已追平GPT-4 支持16s视频生成
贺翀 05-17 14:10
字节跳动自研大模型即将正式发布，火山引擎大模型服务平台将迎重大升级
贺翀 05-14 14:38
商汤：日日新大模型5.0粤语版发布，对话质量显著提升
张晓波 05-07 11:14

热门阅读

和讯特稿

举报/投诉/意见反馈 - 联系我们 - 关于我们 - 广告服务

和讯网违法和不良信息/涉未成年人有害信息举报电话：010-65880240 客服电话：010-85650688 传真：010-85650844 邮箱：yhts#staff.hexun.com(发送时#改为@)
本站郑重声明：和讯网北京和讯在线信息咨询服务有限公司所载文章、数据仅供参考，投资有风险，选择需谨慎。风险提示
[京ICP证100713号] 互联网新闻信息服务许可增值电信业务经营许可证[B2-20090331]　广告经营许可证[京海工商广字第0407号] 乙级测绘资质证书[乙测资字11513208] 广播电视节目制作经营许可证（京）字第707号 [京网文[2014]0945-245号] 药品医疗器械网络信息服务备案-（京）网药械信息备字（2023）第00216号京ICP备10021077号

京公网安备 11010502041727号

Copyright©和讯网北京和讯在线信息咨询服务有限公司 All Rights Reserved 版权所有复制必究