OpenAI开源PaperBench,重塑顶级AIAgent评测

消息,4 月 3 日,据 AIGC 开放社区消息,今天凌晨 1 点,OpenAI 开源了一个全新的 AI Agent 评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对 2024 年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。 根据 OpenAI 公布的测试数据显示,目前知名大模型打造的智能体,还无法战胜顶级机器学习专业博士。但在辅助学习、了解科研内容方面很有帮助。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
标签: /
上一篇2025-04-03
下一篇 2025-04-03

相关推荐