OpenAI 推出 PaperBench：Claude3.5 复现得分 21.0%

2025-04-03 08:12:15 自选股写手

快讯摘要

4 月 2 日 OpenAI 推出 PaperBench 基准，测试发现最佳智能体复现得分 21.0%，未超人类基线。

快讯正文

【OpenAI 于 4 月 2 日推出评估 AI 智能体复现能力的基准 PaperBench】4 月 3 日消息，美国开放人工智能研究中心4 月 2 日宣布推出 PaperBench。智能体要从零开始复现 20 篇 ICML2024Spotlight 和 Oral 论文。经测试，表现最佳的智能体 Claude3.5Sonnet（新版）结合开源框架，平均复现得分 21.0%，且未超越人类基线。

下载和讯APP查看快讯，体验更佳>>

（责任编辑：董萍萍）

【免责声明】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

写评论已有条评论跟帖用户自律公约

提交还可输入500字

OpenAI 推出 PaperBench：Claude3.5 复现得分 21.0%

快讯摘要

快讯正文

最新评论

相关推荐

热门阅读

OpenAI 推出 PaperBench：Claude3.5 复现得分 21.0%

快讯摘要

快讯正文

最新评论

相关推荐

热门阅读

推荐阅读