大语言模型Agent Skill能力体系研究报告

摘要

随着大语言模型（LLM）驱动的自主智能体逐渐成为人工智能领域的新焦点，Agent Skill（智能体技能）作为赋予智能体复用性、适应性与专业化能力的核心机制，正在重塑人机交互的范式。本报告基于对国内外大量前沿学术文献与产业研究的系统分析，从认知科学的过程性记忆视角出发，全面梳理了 Agent Skill 的定义、架构、能力体系与技术演进路径。研究表明，Agent Skill 通过将复杂的任务解决流程封装为模块化的过程性知识，有效解决了传统 LLM Agent 在长周期任务中面临的试错成本高、执行效率低、稳定性差等痛点。当前，该领域已从早期的单智能体推理循环，演进至多智能体协作、状态编排与代码中心化的多层次生态。技术上，技能蒸馏、持续学习与自动工具优化等前沿技术，正在推动智能体从 “一次性推理” 向 “终身学习” 进化。然而，技能的泛化性、动态环境的适应性以及安全治理等挑战依然存在。本报告旨在为研究者与产业从业者提供一份全景式的 Agent Skill 领域洞察，以把握自主智能时代的技术脉搏。

一、Agent Skill 的概念与认知基础

1.1 从过程性记忆看 Agent Skill

在认知科学中，人类的记忆系统被划分为陈述性记忆（Declarative Memory）与过程性记忆（Procedural Memory）。前者负责存储 “是什么” 的事实性知识，而后者则负责编码 “怎么做” 的程序性知识 —— 即我们常说的 “技能”。例如，学会骑自行车后，我们无需每次都重新推导平衡原理，而是直接调用内化的动作模式。

这一认知机制正是 Agent Skill 的理论源头。传统的大语言模型虽然通过海量文本训练习得了庞大的陈述性知识，但在面对复杂的现实任务时，往往需要从零开始进行推理与试错。这不仅导致了极高的计算成本，也使得长周期任务的成功率极低。Agent Skill 的提出，正是为了让智能体也能像人类一样，习得并复用过程性知识 [1]。

在狭义上，Agent Skill 是一种模块化的文件系统抽象，由 Anthropic 等机构提出。它将特定任务的指令、可执行代码、参考资料等封装为一个标准化的技能单元（Skill Unit）。当智能体遇到相似任务时，无需重新推导，只需直接调用该技能单元，即可快速、稳定地完成任务。在广义上，Agent Skill 涵盖了所有能够被智能体习得、存储并复用的过程性知识，无论是显式的工作流，还是隐式的模型策略。

1.2 Agent Skill 的生命周期

一个完整的 Agent Skill 系统，遵循着 “获取 - 表示 - 调用 - 精炼” 的闭环生命周期，这与人类技能的学习过程高度吻合：

技能获取（Skill Acquisition）：智能体在与环境的反复交互中，识别出重复出现的任务模式，并将成功的解决路径提取出来，固化为初始的技能模板。
技能表示（Skill Representation）：将提取出的流程转化为标准化的、可被机器发现的模块化单元。通常包含元数据（描述技能的功能）、执行脚本（具体的操作步骤）以及依赖资源。
技能调用（Skill Invocation）：在面对新任务时，智能体首先检索匹配的技能库，找到最相关的技能，然后按需加载并执行。这一过程遵循 “上下文渐进披露” 原则，只在需要的时候加载技能细节，避免了上下文窗口的浪费。
技能精炼（Skill Refinement）：根据技能执行的反馈结果，智能体自动修正技能中的错误，优化执行步骤，使其适应新的环境变化，实现技能的持续进化。

这一闭环机制，彻底改变了传统 Agent“做一次，忘一次” 的窘境，使其具备了从经验中持续成长的能力。

二、Agent 能力体系的核心维度

Agent Skill 的能力体系，建立在大语言模型基础能力之上，通过模块化的扩展，构建了一个完整的自主任务求解能力矩阵。

2.1 工具使用：突破模型的物理边界

工具使用是 Agent Skill 最基础也是最核心的能力。正如邱锡鹏团队在综述中指出的，大语言模型本身存在着无法获取实时信息、无法进行精确计算的短板，而工具使用能力正是弥补这一短板的关键 [2]。

Agent 的工具使用能力被细分为三个核心子能力：

规划能力：判断何时需要调用工具，以及如何编排多个工具的调用顺序。
指令生成能力：生成符合工具接口规范的调用指令，如 JSON 格式的函数参数。
结果整合能力：理解工具返回的结果，并将其整合进自然语言回复中。

从 2022 年的 TALM 开始，工具使用经历了从单一工具到多工具协作、从代码式到接口式的快速演进。最新的研究如 PLAY2PROMPT，甚至让 Agent 能够自动 “玩” 工具，通过试错来自动优化工具的使用文档，从而在零样本情况下大幅提升工具调用的准确率 [9]。

2.2 规划与反思：长程任务的导航仪

面对复杂的长周期任务，Agent 必须具备规划与反思的能力。规划能力使得 Agent 能够将一个模糊的宏观目标，拆解为一系列有序的子任务。而反思能力（Reflection）则允许 Agent 在执行过程中，回顾自己的历史轨迹，修正错误的决策。

例如，在 ReAct 范式中，Agent 通过 “思考 - 行动 - 观察” 的循环，不断根据环境反馈调整自己的推理路径。而在 Plan-and-Execute 范式中，Agent 则先制定全局计划，再逐步执行，避免了在细节中迷失目标。

2.3 持续学习：技能的进化引擎

为了让技能能够不断进化，持续学习（Continual Learning）成为了 Agent Skill 的关键能力。Letta 的研究表明，通过引入 Skill Learning 机制，CLI Agent 在 Terminal Bench 2.0 基准上取得了显著的性能提升。

数据显示，引入技能学习后，Agent 的任务成功率从基线的 65% 提升至 90%，工具调用的准确率更是从 30% 飙升至 100%。与此同时，执行成本降低了 15.7%，Token 消耗减少了 10.4%。这意味着，技能不仅让 Agent 变得更聪明，也变得更省钱、更高效 [6]。

三、Agent 框架的演进与生态

随着 Agent Skill 研究的深入，产业界涌现出了大量的开发框架，推动了技术的快速落地。从 2022 年至今，Agent 框架经历了一场从单一循环到复杂生态的爆炸式演进。

3.1 从单体到群体：多智能体协作

当任务的复杂度超过了单个 Agent 的能力上限，多智能体协作（Multi-Agent Collaboration）成为了必然的选择。通过模拟人类社会的分工与协作，多个具备不同 Skill 的 Agent 可以组成团队，共同完成复杂任务。

以 CrewAI、MetaGPT 为代表的框架，将角色扮演、标准化流程（SOP）引入了 Agent 系统。例如，在软件开发任务中，一个 Agent 团队可以包含产品经理、架构师、程序员和测试工程师。每个角色只需要专注于自己的专业 Skill，通过发布 - 订阅机制共享工作成果，最终高效地完成整个项目的交付。这种分工协作的模式，极大地提升了复杂任务的成功率，也让 Agent Skill 的专业化成为了可能。

3.2 从提示流到状态流：确定性编排

早期的 Agent 框架大多基于提示词（Prompt）的流转，这种方式虽然灵活，但缺乏确定性，极易跑题或陷入死循环。为了满足企业级的生产需求，以 LangGraph 为代表的状态编排框架应运而生。

LangGraph 将 Agent 的工作流建模为有向图（Graph），每个节点是一个 Agent 或工具，边则定义了状态的流转。这使得开发者可以精确地控制任务的执行逻辑，支持断点续传、人在回路、错误重试等企业级特性。这标志着 Agent 开发从 “玩具级” 的原型，正式走向了 “生产级” 的工程化落地。

四、前沿技术突破

4.1 Agent 蒸馏：大能力的小模型化

大模型 Agent 虽然能力强，但成本高昂。为了让小模型也能具备 Agent Skill，Agent 蒸馏（Agent Distillation）技术成为了新的热点。研究人员通过让小模型学习大模型 Agent 的交互轨迹（Trajectory），将大模型的工具使用、规划推理能力 “蒸馏” 到小模型中。

实验表明，通过这种方式，仅仅 0.5B/1.5B 参数的小模型，也能具备媲美大模型的 Agent 能力，这为端侧部署 Agent 铺平了道路 [4]。

4.2 科研 Agent：算法发现的新引擎

Agent Skill 不仅能处理日常事务，更能成为科学发现的助手。DeepMind 提出的 AlphaEvolve，就是一个由 Gemini 驱动的编码智能体。它能够自动设计并改进算法。在最新的研究中，AlphaEvolve 发现了一种新的 4x4 复数矩阵乘法算法，将标量乘法的次数从 Strassen 算法的 54 次降低到了 48 次，打破了尘封 56 年的世界纪录。这证明了 Agent Skill 在科研创新领域的巨大潜力 [5]。

4.3 经验驱动的环境适应

面对未知的 Web 环境，Agent 如何快速适应？WebATLAS 提出了经验驱动的记忆与动作模拟机制。它通过记忆过去的失败经验，建立一个轻量级的环境内部模型，在执行真实动作之前，先在内部进行 “想象”（Imagination），预测动作的后果。这使得 Agent 在未见过的网站上，也能快速适应，完成操作任务 [7]。

五、挑战与未来展望

尽管 Agent Skill 取得了巨大的进展，但该领域仍面临着诸多挑战。

首先是技能的泛化性。目前的 Agent Skill 大多针对特定任务训练，跨任务的泛化能力依然较弱。一个学会了做 PPT 的 Agent，很难自动把这个技能迁移到做 Excel 报表上。如何实现技能的通用表示与迁移学习，是未来的核心难题。

其次是静态技能库的局限。当前的技能库大多是静态的，无法实时适应环境的变化。例如，当网站的 UI 改版后，旧的操作技能就会失效。如何让技能具备持续的在线进化能力，是实现终身智能的关键。

最后是安全与治理。随着 Agent 的自主能力越来越强，如何确保它不会执行有害的操作、不会泄露隐私，成为了亟待解决的治理问题。构建安全的沙箱执行环境、建立可审计的技能调用机制，是产业落地的前提。

展望未来，Agent Skill 将推动人工智能从 “对话式交互” 彻底走向 “自主式执行”。我们有理由相信，随着技术的不断成熟，具备终身学习能力的 Agent Skill 系统，将成为通用人工智能（AGI）道路上的关键一步。

参考文献

[1] Wu, Y., Zhang, Y. Agent Skills from the Perspective of Procedural Memory: A Survey. TechRxiv, 2026. [2] 郑逸宁，等。大语言模型的工具使用综述。自动化学报，2025. [3] Xi, Z., et al. The rise and potential of large language model based agents: a survey. Sci China Inf Sci, 2025. [4] Zhang, J., et al. Distilling LLM Agent into Small Models with Retrieval and Code Tools. OpenReview, 2025. [5] DeepMind. AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms. Google DeepMind Blog, 2025. [6] Letta. Skill Learning: Bringing Continual Learning to CLI Agents. Letta Blog, 2025. [7] Zhang, Y., et al. WebATLAS: An LLM Agent with Experience-Driven Memory and Action Simulation. arXiv:2510.22732, 2025. [8] Zhao, Y. K., et al. Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment. OpenReview, 2025. [9] IBM Research. PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play. ACL 2025. [10] Luo, J., et al. Large Language Model Agent: A Survey on Methodology, Applications and Challenges. arXiv:2503.21460, 2025.

（注：文档部分内容可能由 AI 生成）