OpenAI：开源 PaperBench 重塑评测标准

2025-04-03 07:51:15 自选股写手

快讯摘要

OpenAI 凌晨开源 PaperBench 新 AIAgent 评测基准，知名模型智能体表现逊于顶级博士，辅助学习有帮助。

快讯正文

【OpenAI 开源全新 AIAgent 评测基准 PaperBench】今日凌晨 1 点，OpenAI 对外开源了一个崭新的 AIAgent 评测基准，名为 PaperBench。此基准重点考查智能体的搜索、整合以及执行等方面的能力，要求对 2024 年国际机器学习大会上顶尖论文进行复现，涵盖对论文内容的理解、代码编写以及实验执行等相关能力。据 OpenAI 所公布的测试数据表明，当下知名大模型塑造的智能体，尚不能击败顶级机器学习专业博士。不过，其在辅助学习、了解科研内容等方面颇具助益。

下载和讯APP查看快讯，体验更佳>>

（责任编辑：董萍萍）

【免责声明】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

写评论已有条评论跟帖用户自律公约

提交还可输入500字

OpenAI：开源 PaperBench 重塑评测标准

快讯摘要

快讯正文

最新评论

相关推荐

热门阅读

OpenAI：开源 PaperBench 重塑评测标准

快讯摘要

快讯正文

最新评论

相关推荐

热门阅读

推荐阅读