4 月 2 日 OpenAI 推出 PaperBench 基准,测试发现最佳智能体复现得分 21.0%,未超人类基线。
【OpenAI 于 4 月 2 日推出评估 AI 智能体复现能力的基准 PaperBench】4 月 3 日消息,美国开放人工智能研究中心4 月 2 日宣布推出 PaperBench。智能体要从零开始复现 20 篇 ICML2024Spotlight 和 Oral 论文。经测试,表现最佳的智能体 Claude3.5Sonnet(新版)结合开源框架,平均复现得分 21.0%,且未超越人类基线。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论