Agents系统、模型、数据集完全公开！

7B 大小的模型也能玩转 AI Agents 了？近期，快手开源了「KwaiAgents」，问它周末滑雪问题，它不但帮你找到场地，连当天的天气都帮你考虑周到了。

大家都知道，大语言模型（LLM）通过对语言的建模掌握了大量知识，并具备一定的认知和推理能力。然而，即使是当前最强的GPT-4，单独使用时仍然会产生虚假的内容，无法与世界进行实时互动。AI Agents 是解决这个问题的一种途径，通过激发大模型的任务规划、反思和调用工具等能力，使大模型能够借助现实世界的工具提高生成内容的准确性，甚至具备解决复杂问题的能力。这一次，快手与哈尔滨工业大学合作研发的「KwaiAgents」，使7B/13B的“小”大模型能够超越GPT-3.5的效果，并且这些系统、模型、数据和评测都是开源的！

技术报告：https://arxiv.org/abs/2312.04889
项目主页：https://github.com/KwaiKEG/KwaiAgents

在「KwaiAgents」的Github主页上可以找到以下内容：

系统（KAgentSys-Lite）：轻量级 AI Agents 系统，并配备事实、时效性工具集；
模型（KAgentLMs）：Meta-Agent Tuning 后，具有 Agents 通用能力的系列大模型及其训练数据；
评测（KAgentBench）：开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

系统

KAgentSys系统的主要组成部分包括基于大型模型的认知核心、记忆机制和工具库，以实现迭代式自动化

记忆机制：包含知识库、对话、任务历史三类记忆，依托于混合向量检索、关键词检索等技术的检索框架，在每一次规划路径中检索所需的信息。
工具集：包含事实性增强工具集，异构的搜索和浏览机制能够汇集网页、文本百科、视频百科等多个来源的知识；包含日历、节日、时间差、天气等常见的时效性增强工具集。
自动化 Loop：在一轮对话中，用户会给予一个问题，可选知识库及额外人设整体进行输入，系统会先进行记忆的更新和检索，再调用大模型进行任务的规划，如果需要调用工具则进行调用，如果不用则进入总结阶段，大模型综合历史的信息给出符合预期的回答。

KAgentSys 的一些功能将逐步进行升级和开放，这是本次开源的内容

模型

为了避免训练中单一模板引起的过拟合问题，团队提出 Meta-Agent Tuning (MAT) 的方法，通过在训练数据中引入更多 Agent Prompt 模板，从而提升大模型在 Agent 能力上的通用性，并提升了效果。

Meta-Agent Tuning (MAT) 分为两阶段：

模板生成阶段：通过设计 Meta-Agent，对特定问题集合，生成实例化的 Agent Prompt 模板（上右图为一个例子）候选；并在相同的实验环境下，生成模板产出的候选结果，与开源模板（如 ReAct，AutoGPT 等）产出的高置信结果，用打分模型进行对比打分，从而筛选出高质量的 Agent Prompt 模板库。通过引入这些多元的模板，能够显著降低模型微调时对模板的依赖，提纯更本质的 Agents 在任务规划、工具使用、反思等能力，从而提高模型的泛化性和有效性。
指令微调阶段：基于上万的模板，构建了超过 20 万的 Agent 调优指令微调数据。团队调优了一些热门开源模型如 Qwen-7B、Baichuan2-13B 等，供大家使用和参考，后续还会陆续放出其他热门模型。

评测

KAgentBench 通过人工精细化标注的上千条数据，做到了开箱即用，让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。

在KAgentBench中，根据上图所示，我们会对不同种类的能力进行输入构造。每个查询都配备有多个模板和多个经过人工编辑的真实回答。这样做的目的是为了综合评估准确性和泛化性。经过MAT调优后，下表显示了7B-13B模型在各个能力方面的提升，并且超过了GPT-3.5的效果

该研究还进行了交叉评估，邀请了人类标注者对200个事实性和时效性问题进行标注，例如“刘德华今年几岁了”。结果显示，KAgentSys系统和MAT之后的模型显著提升（正确率以百分比表示，括号中为5分制的平均得分）

对于一些长尾问题和热门问题，通常仅依赖网页搜索的结果并不理想。例如，如果询问“安东内拉比梅西大多少天？”这样的长尾问题，通常搜索结果会返回一些关于他们的八卦新闻，而无法提供关键信息。而KAgentSys则通过调用百科搜索工具获取精确的出生日期，再利用时间差工具计算年龄差，从而能够精确回答这个问题

团队表示，AI Agents 是一条非常有潜力的道路。未来，我们将持之以恒地沉淀核心技术，并为整个社区不断注入新的活力。同时，我们也将积极探索 Agents 技术与快手业务的结合，尝试更多有趣、有价值的创新应用落地

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

Agents系统、模型、数据集完全公开！

系统

模型

评测

相关推荐