OpenAI 推出 PaperBench:Claude3.5 复现得分 21.0%

2025-04-03 08:12:15 自选股写手 

快讯摘要

4 月 2 日 OpenAI 推出 PaperBench 基准,测试发现最佳智能体复现得分 21.0%,未超人类基线。

快讯正文

【OpenAI 于 4 月 2 日推出评估 AI 智能体复现能力的基准 PaperBench】4 月 3 日消息,美国开放人工智能研究中心4 月 2 日宣布推出 PaperBench。智能体要从零开始复现 20 篇 ICML2024Spotlight 和 Oral 论文。经测试,表现最佳的智能体 Claude3.5Sonnet(新版)结合开源框架,平均复现得分 21.0%,且未超越人类基线。

(责任编辑:董萍萍 )

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    推荐阅读