6月18日,红杉中国开源AI基准测试工具xbench两评测集,将动态更新,用“黑白盒”机制确保长期有效
【6月18日红杉中国开源AI基准测试工具评测集】 6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集,即xbench - ScienceQA和xbench - DeepSearch。 红杉中国称,未来会基于大模型和AI Agent发展动态更新评测集,采用“黑白盒”机制。 这既能让xbench服务更多开发者,又能避免过拟合问题,确保其长期有效。
本文由 AI 算法生成,仅作参考,不涉投资建议,使用风险自担
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论