OpenAI 凌晨开源 PaperBench 新 AIAgent 评测基准,知名模型智能体表现逊于顶级博士,辅助学习有帮助。
【OpenAI 开源全新 AIAgent 评测基准 PaperBench】今日凌晨 1 点,OpenAI 对外开源了一个崭新的 AIAgent 评测基准,名为 PaperBench。此基准重点考查智能体的搜索、整合以及执行等方面的能力,要求对 2024 年国际机器学习大会上顶尖论文进行复现,涵盖对论文内容的理解、代码编写以及实验执行等相关能力。据 OpenAI 所公布的测试数据表明,当下知名大模型塑造的智能体,尚不能击败顶级机器学习专业博士。不过,其在辅助学习、了解科研内容等方面颇具助益。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论