Agents系统、模型、数据集完全公开!

7B 大小的模型也能玩转 AI Agents 了?近期,快手开源了「KwaiAgents」,问它周末滑雪问题,它不但帮你找到场地,连当天的天气都帮你考虑周到了。

大家都知道,大语言模型(LLM)通过对语言的建模掌握了大量知识,并具备一定的认知和推理能力。然而,即使是当前最强的GPT-4,单独使用时仍然会产生虚假的内容,无法与世界进行实时互动。AI Agents 是解决这个问题的一种途径,通过激发大模型的任务规划、反思和调用工具等能力,使大模型能够借助现实世界的工具提高生成内容的准确性,甚至具备解决复杂问题的能力。这一次,快手与哈尔滨工业大学合作研发的「KwaiAgents」,使7B/13B的“小”大模型能够超越GPT-3.5的效果,并且这些系统、模型、数据和评测都是开源的!


  • 技术报告:https://arxiv.org/abs/2312.04889
  • 项目主页:https://github.com/KwaiKEG/KwaiAgents

在「KwaiAgents」的Github主页上可以找到以下内容:

  1. 系统(KAgentSys-Lite):轻量级 AI Agents 系统,并配备事实、时效性工具集;
  2. 模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其训练数据;
  3. 评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

系统

KAgentSys系统的主要组成部分包括基于大型模型的认知核心、记忆机制和工具库,以实现迭代式自动化

  1. 记忆机制:包含知识库、对话、任务历史三类记忆,依托于混合向量检索、关键词检索等技术的检索框架,在每一次规划路径中检索所需的信息。
  2. 工具集:包含事实性增强工具集,异构的搜索和浏览机制能够汇集网页、文本百科、视频百科等多个来源的知识;包含日历、节日、时间差、天气等常见的时效性增强工具集。
  3. 自动化 Loop:在一轮对话中,用户会给予一个问题,可选知识库及额外人设整体进行输入,系统会先进行记忆的更新和检索,再调用大模型进行任务的规划,如果需要调用工具则进行调用,如果不用则进入总结阶段,大模型综合历史的信息给出符合预期的回答。

KAgentSys 的一些功能将逐步进行升级和开放,这是本次开源的内容

模型

为了避免训练中单一模板引起的过拟合问题,团队提出 Meta-Agent Tuning (MAT) 的方法,通过在训练数据中引入更多 Agent Prompt 模板,从而提升大模型在 Agent 能力上的通用性,并提升了效果。

Meta-Agent Tuning (MAT) 分为两阶段:

  1. 模板生成阶段:通过设计 Meta-Agent,对特定问题集合,生成实例化的 Agent Prompt 模板(上右图为一个例子)候选;并在相同的实验环境下,生成模板产出的候选结果,与开源模板(如 ReAct,AutoGPT 等)产出的高置信结果,用打分模型进行对比打分,从而筛选出高质量的 Agent Prompt 模板库。通过引入这些多元的模板,能够显著降低模型微调时对模板的依赖,提纯更本质的 Agents 在任务规划、工具使用、反思等能力,从而提高模型的泛化性和有效性。
  2. 指令微调阶段:基于上万的模板,构建了超过 20 万的 Agent 调优指令微调数据。团队调优了一些热门开源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和参考,后续还会陆续放出其他热门模型。

评测

KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。

在KAgentBench中,根据上图所示,我们会对不同种类的能力进行输入构造。每个查询都配备有多个模板和多个经过人工编辑的真实回答。这样做的目的是为了综合评估准确性和泛化性。经过MAT调优后,下表显示了7B-13B模型在各个能力方面的提升,并且超过了GPT-3.5的效果

该研究还进行了交叉评估,邀请了人类标注者对200个事实性和时效性问题进行标注,例如“刘德华今年几岁了”。结果显示,KAgentSys系统和MAT之后的模型显著提升(正确率以百分比表示,括号中为5分制的平均得分)

对于一些长尾问题和热门问题,通常仅依赖网页搜索的结果并不理想。例如,如果询问“安东内拉比梅西大多少天?”这样的长尾问题,通常搜索结果会返回一些关于他们的八卦新闻,而无法提供关键信息。而KAgentSys则通过调用百科搜索工具获取精确的出生日期,再利用时间差工具计算年龄差,从而能够精确回答这个问题

团队表示,AI Agents 是一条非常有潜力的道路。未来,我们将持之以恒地沉淀核心技术,并为整个社区不断注入新的活力。同时,我们也将积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
标签:
上一篇2025-08-10
下一篇 2025-08-10

相关推荐

  • 莱特帀手机钱包-莱特币手机钱包

    【莱特帀手机钱包】——您的虚拟货币安全助手随着数字货币的兴起,莱特帀作为一种备受关注的加密货币,越来越受到投资者的青睐,为了方便用户安全、便捷地管理莱特帀资

    2025-08-10 22:58:44
    2021
  • ttm数字货币币钱包-ttt数字货币

    TTM数字货币币钱包——您的虚拟货币钱包助手随着数字货币的普及,越来越多的人开始关注并投资数字货币,数字货币的安全存储问题成为了投资者们面临的一大挑战,为了解

    2025-08-10 22:58:44
    2014
  • 货币钱包转账违法吗

    虚拟货币钱包助手:揭秘钱包转账的合法性与风险尊敬的用户,您好!作为虚拟货币钱包助手,今天我们来探讨一下关于虚拟货币钱包转账的合法性与风险问题,什么是虚拟货币钱包

    2025-08-10 22:58:44
    2010
  • 虚拟币前十名的各币价格

    在数字货币的世界里,各种虚拟币的价格波动总是牵动着投资者的心,下面,我将为您详细介绍当前市值排名前十的虚拟币及其价格情况,帮助您更好地了解这个市场,我们需要明确

    2025-08-10 22:58:44
    2007
  • 鱼池sc钱包-鱼池钱包模式

    【鱼池SC钱包】——您的虚拟货币守护神随着区块链技术的不断发展,虚拟货币已经成为越来越多人的投资选择,为了方便用户安全、便捷地管理自己的虚拟货币资产,各种虚拟

    2025-08-10 22:58:44
    2007
  • usdt钱包官方下载(高级版本V6.4.24)_USDT钱包是什么?

    USDT钱包是一款基于区块链技术的数字货币钱包,主要应用于泰达币(USDT)的存储、转账和交易,泰达币作为一种稳定币,其价值与美元挂钩,1 USDT兑换1美元,因此在数字货币市场

    2025-08-10 22:58:44
    2006
  • 派币今天价值多少钱(派币今日价值报告)

    派币今天价值多少钱(派币今日价值报告)如果你是一名投资者,特别是加密货币投资者,那么你可能会对派币的表现感兴趣。究竟,在今天的市场上,你的派币价值是多少呢?让我们

    2025-08-10 22:58:44
    2005
  • 最新ok交易所app下载_OK交易所官方下载安装教程

    OK交易所,作为一家全球领先的数字资产交易平台,以其安全性、稳定性和用户体验而闻名,本文将详细介绍OK交易所的官方下载安装教程,帮助用户便捷地获取和使用OK交易所的

    2025-08-10 22:58:44
    2005