大语言模型Agent Skill能力体系研究报告
摘要
随着大语言模型(LLM)驱动的自主智能体逐渐成为人工智能领域的新焦点,Agent Skill(智能体技能)作为赋予智能体复用性、适应性与专业化能力的核心机制,正在重塑人机交互的范式。本报告基于对国内外大量前沿学术文献与产业研究的系统分析,从认知科学的过程性记忆视角出发,全面梳理了 Agent Skill 的定义、架构、能力体系与技术演进路径。研究表明,Agent Skill 通过将复杂的任务解决流程封装为模块化的过程性知识,有效解决了传统 LLM Agent 在长周期任务中面临的试错成本高、执行效率低、稳定性差等痛点。当前,该领域已从早期的单智能体推理循环,演进至多智能体协作、状态编排与代码中心化的多层次生态。技术上,技能蒸馏、持续学习与自动工具优化等前沿技术,正在推动智能体从 “一次性推理” 向 “终身学习” 进化。然而,技能的泛化性、动态环境的适应性以及安全治理等挑战依然存在。本报告旨在为研究者与产业从业者提供一份全景式的 Agent Skill 领域洞察,以把握自主智能时代的技术脉搏。
一、Agent Skill 的概念与认知基础
1.1 从过程性记忆看 Agent Skill
在认知科学中,人类的记忆系统被划分为陈述性记忆(Declarative Memory)与过程性记忆(Procedural Memory)。前者负责存储 “是什么” 的事实性知识,而后者则负责编码 “怎么做” 的程序性知识 —— 即我们常说的 “技能”。例如,学会骑自行车后,我们无需每次都重新推导平衡原理,而是直接调用内化的动作模式。
这一认知机制正是 Agent Skill 的理论源头。传统的大语言模型虽然通过海量文本训练习得了庞大的陈述性知识,但在面对复杂的现实任务时,往往需要从零开始进行推理与试错。这不仅导致了极高的计算成本,也使得长周期任务的成功率极低。Agent Skill 的提出,正是为了让智能体也能像人类一样,习得并复用过程性知识 [1]。
在狭义上,Agent Skill 是一种模块化的文件系统抽象,由 Anthropic 等机构提出。它将特定任务的指令、可执行代码、参考资料等封装为一个标准化的技能单元(Skill Unit)。当智能体遇到相似任务时,无需重新推导,只需直接调用该技能单元,即可快速、稳定地完成任务。在广义上,Agent Skill 涵盖了所有能够被智能体习得、存储并复用的过程性知识,无论是显式的工作流,还是隐式的模型策略。
1.2 Agent Skill 的生命周期
一个完整的 Agent Skill 系统,遵循着 “获取 - 表示 - 调用 - 精炼” 的闭环生命周期,这与人类技能的学习过程高度吻合:
技能获取(Skill Acquisition):智能体在与环境的反复交互中,识别出重复出现的任务模式,并将成功的解决路径提取出来,固化为初始的技能模板。
技能表示(Skill Representation):将提取出的流程转化为标准化的、可被机器发现的模块化单元。通常包含元数据(描述技能的功能)、执行脚本(具体的操作步骤)以及依赖资源。
技能调用(Skill Invocation):在面对新任务时,智能体首先检索匹配的技能库,找到最相关的技能,然后按需加载并执行。这一过程遵循 “上下文渐进披露” 原则,只在需要的时候加载技能细节,避免了上下文窗口的浪费。
技能精炼(Skill Refinement):根据技能执行的反馈结果,智能体自动修正技能中的错误,优化执行步骤,使其适应新的环境变化,实现技能的持续进化。
这一闭环机制,彻底改变了传统 Agent“做一次,忘一次” 的窘境,使其具备了从经验中持续成长的能力。
二、Agent 能力体系的核心维度
Agent Skill 的能力体系,建立在大语言模型基础能力之上,通过模块化的扩展,构建了一个完整的自主任务求解能力矩阵。
2.1 工具使用:突破模型的物理边界
工具使用是 Agent Skill 最基础也是最核心的能力。正如邱锡鹏团队在综述中指出的,大语言模型本身存在着无法获取实时信息、无法进行精确计算的短板,而工具使用能力正是弥补这一短板的关键 [2]。
Agent 的工具使用能力被细分为三个核心子能力:
规划能力:判断何时需要调用工具,以及如何编排多个工具的调用顺序。
指令生成能力:生成符合工具接口规范的调用指令,如 JSON 格式的函数参数。
结果整合能力:理解工具返回的结果,并将其整合进自然语言回复中。
从 2022 年的 TALM 开始,工具使用经历了从单一工具到多工具协作、从代码式到接口式的快速演进。最新的研究如 PLAY2PROMPT,甚至让 Agent 能够自动 “玩” 工具,通过试错来自动优化工具的使用文档,从而在零样本情况下大幅提升工具调用的准确率 [9]。
2.2 规划与反思:长程任务的导航仪
面对复杂的长周期任务,Agent 必须具备规划与反思的能力。规划能力使得 Agent 能够将一个模糊的宏观目标,拆解为一系列有序的子任务。而反思能力(Reflection)则允许 Agent 在执行过程中,回顾自己的历史轨迹,修正错误的决策。
例如,在 ReAct 范式中,Agent 通过 “思考 - 行动 - 观察” 的循环,不断根据环境反馈调整自己的推理路径。而在 Plan-and-Execute 范式中,Agent 则先制定全局计划,再逐步执行,避免了在细节中迷失目标。
2.3 持续学习:技能的进化引擎
为了让技能能够不断进化,持续学习(Continual Learning)成为了 Agent Skill 的关键能力。Letta 的研究表明,通过引入 Skill Learning 机制,CLI Agent 在 Terminal Bench 2.0 基准上取得了显著的性能提升。
数据显示,引入技能学习后,Agent 的任务成功率从基线的 65% 提升至 90%,工具调用的准确率更是从 30% 飙升至 100%。与此同时,执行成本降低了 15.7%,Token 消耗减少了 10.4%。这意味着,技能不仅让 Agent 变得更聪明,也变得更省钱、更高效 [6]。
三、Agent 框架的演进与生态
随着 Agent Skill 研究的深入,产业界涌现出了大量的开发框架,推动了技术的快速落地。从 2022 年至今,Agent 框架经历了一场从单一循环到复杂生态的爆炸式演进。
3.1 从单体到群体:多智能体协作
当任务的复杂度超过了单个 Agent 的能力上限,多智能体协作(Multi-Agent Collaboration)成为了必然的选择。通过模拟人类社会的分工与协作,多个具备不同 Skill 的 Agent 可以组成团队,共同完成复杂任务。
以 CrewAI、MetaGPT 为代表的框架,将角色扮演、标准化流程(SOP)引入了 Agent 系统。例如,在软件开发任务中,一个 Agent 团队可以包含产品经理、架构师、程序员和测试工程师。每个角色只需要专注于自己的专业 Skill,通过发布 - 订阅机制共享工作成果,最终高效地完成整个项目的交付。这种分工协作的模式,极大地提升了复杂任务的成功率,也让 Agent Skill 的专业化成为了可能。
3.2 从提示流到状态流:确定性编排
早期的 Agent 框架大多基于提示词(Prompt)的流转,这种方式虽然灵活,但缺乏确定性,极易跑题或陷入死循环。为了满足企业级的生产需求,以 LangGraph 为代表的状态编排框架应运而生。
LangGraph 将 Agent 的工作流建模为有向图(Graph),每个节点是一个 Agent 或工具,边则定义了状态的流转。这使得开发者可以精确地控制任务的执行逻辑,支持断点续传、人在回路、错误重试等企业级特性。这标志着 Agent 开发从 “玩具级” 的原型,正式走向了 “生产级” 的工程化落地。
四、前沿技术突破
4.1 Agent 蒸馏:大能力的小模型化
大模型 Agent 虽然能力强,但成本高昂。为了让小模型也能具备 Agent Skill,Agent 蒸馏(Agent Distillation)技术成为了新的热点。研究人员通过让小模型学习大模型 Agent 的交互轨迹(Trajectory),将大模型的工具使用、规划推理能力 “蒸馏” 到小模型中。
实验表明,通过这种方式,仅仅 0.5B/1.5B 参数的小模型,也能具备媲美大模型的 Agent 能力,这为端侧部署 Agent 铺平了道路 [4]。
4.2 科研 Agent:算法发现的新引擎
Agent Skill 不仅能处理日常事务,更能成为科学发现的助手。DeepMind 提出的 AlphaEvolve,就是一个由 Gemini 驱动的编码智能体。它能够自动设计并改进算法。在最新的研究中,AlphaEvolve 发现了一种新的 4x4 复数矩阵乘法算法,将标量乘法的次数从 Strassen 算法的 54 次降低到了 48 次,打破了尘封 56 年的世界纪录。这证明了 Agent Skill 在科研创新领域的巨大潜力 [5]。
4.3 经验驱动的环境适应
面对未知的 Web 环境,Agent 如何快速适应?WebATLAS 提出了经验驱动的记忆与动作模拟机制。它通过记忆过去的失败经验,建立一个轻量级的环境内部模型,在执行真实动作之前,先在内部进行 “想象”(Imagination),预测动作的后果。这使得 Agent 在未见过的网站上,也能快速适应,完成操作任务 [7]。
五、挑战与未来展望
尽管 Agent Skill 取得了巨大的进展,但该领域仍面临着诸多挑战。
首先是技能的泛化性。目前的 Agent Skill 大多针对特定任务训练,跨任务的泛化能力依然较弱。一个学会了做 PPT 的 Agent,很难自动把这个技能迁移到做 Excel 报表上。如何实现技能的通用表示与迁移学习,是未来的核心难题。
其次是静态技能库的局限。当前的技能库大多是静态的,无法实时适应环境的变化。例如,当网站的 UI 改版后,旧的操作技能就会失效。如何让技能具备持续的在线进化能力,是实现终身智能的关键。
最后是安全与治理。随着 Agent 的自主能力越来越强,如何确保它不会执行有害的操作、不会泄露隐私,成为了亟待解决的治理问题。构建安全的沙箱执行环境、建立可审计的技能调用机制,是产业落地的前提。
展望未来,Agent Skill 将推动人工智能从 “对话式交互” 彻底走向 “自主式执行”。我们有理由相信,随着技术的不断成熟,具备终身学习能力的 Agent Skill 系统,将成为通用人工智能(AGI)道路上的关键一步。
参考文献
[1] Wu, Y., Zhang, Y. Agent Skills from the Perspective of Procedural Memory: A Survey. TechRxiv, 2026. [2] 郑逸宁,等。大语言模型的工具使用综述。自动化学报,2025. [3] Xi, Z., et al. The rise and potential of large language model based agents: a survey. Sci China Inf Sci, 2025. [4] Zhang, J., et al. Distilling LLM Agent into Small Models with Retrieval and Code Tools. OpenReview, 2025. [5] DeepMind. AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms. Google DeepMind Blog, 2025. [6] Letta. Skill Learning: Bringing Continual Learning to CLI Agents. Letta Blog, 2025. [7] Zhang, Y., et al. WebATLAS: An LLM Agent with Experience-Driven Memory and Action Simulation. arXiv:2510.22732, 2025. [8] Zhao, Y. K., et al. Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment. OpenReview, 2025. [9] IBM Research. PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play. ACL 2025. [10] Luo, J., et al. Large Language Model Agent: A Survey on Methodology, Applications and Challenges. arXiv:2503.21460, 2025.
(注:文档部分内容可能由 AI 生成)