AI Agent 学习笔记(一)
一、Agent 四大要素
规划(Planning)
记忆(Memory)
工具(Tools)
执行(Action)
规划: Agent需要具备规划(同时也包含决策)能力,以有效地执行复杂任务。这涉及子目标的分解(Subgoal Decomposition)、连续的思考(即思维链)、自我反思和批评(Self-critics),以及对过去行动的反思(Reflection)。
记忆:包含短期记忆和长期记忆两部分。短期记忆与上下文学习有关,属于提示工程的一部分,而长期记忆涉及信息的长时间保留和检索,通常利用外部向量存储和快速检索。
工具:包括 Agent 可能调用的各种工具,如日历、计算器、代码解释器和搜索功能等。由于大模型一旦完成预训练,其内部能力和知识边界就基本固定下来,而且难以拓展,因此这些工具显得尤其重要。这些工具可以扩展Agent的能力,使其能够执行更复杂的任务。
执行(或称行动): Agent基于规划和记忆来执行具体的行动。这可能包括与外部世界互动,或者通过调用工具来完成一个动作(任务)。
二、Agent 是怎样“动”起来的
1、任务分解
任务分解包括下述技术。
思维链:这是一种提示技术,通过让模型“一步一步地思考”,帮助它将大任务分解成小任务,并清楚地解释自己的思考过程。
思维树(Tree of Thoughts,ToT):通过在每个步骤探索多种推理可能性,进而形成一种树状结构。思维树可以用不同的搜索方法,例如广度优先搜索(Breadth-FirstSearch,BFS)或深度优先搜索(Depth-FirstSearch,DFS),并通过提示或投票来评估每个步骤。
还可以通过简单提示、特定任务的指令或手动(人工)进行任务分解等,结合外部规划器的代表是“大模型 +P”方法:它使用PDDL(Planning DomainDefinition Language,一种规划问题描述语言)来描述问题,首先由大模型将问题转化为 Problem PDDL,然后请求外部规划器生成计划,最后将这个计划转换回自然语言。本质上,规划步骤被外包给外部工具来完成。这种方法在某些机器人设置中很常见。
2、自我反思
ReAct: 这个框架通过结合特定任务的动作和语言空间,让模型能够与环境交互,并生成推理轨迹。这是一种大模型推理和行动的一种认知框架,是ShunyuYao等人在ICLR 2023的论文“ReAct:SynergizingReasoning and Actingin Language Models”中提出的。
该循环过程主要涉及如下 3个步骤。
思考(Thought):涉及对下一个行动进行推理。在这一步骤中需要评估当前情况并考虑可能的行动方案。
行动(Action):基于思考的结果,决定采取什么行动。这一步骤是行动计划的选择过程。
观察(Observation):执行行动后,需要观察并收集反馈。这一步骤将对行动结果进行评估。它可能影响或改变下一轮次思考的方向。
Reflexion:这是一个使 Agent 具备动态记忆和自我反思能力的框架。它通过帮助 Agent 回顾过去的行动来提高推理能力。
CoH(Chain of Hindsight ):这个方法通过向大模型展示一系列带有反馈的过去输出来鼓励大模型改进自己的输出。
3、调用工具
研究人员提出了一些策略来提升 Agent调用工具的能力。工具封装通过封装将工具的复杂性隐藏起来,为Agent提供简单、统一的接口,降低 Ageni工具调用的难度。利用机器学习和其他自适应技术,Agent能够学习如何更有效地使用工具。通过不断实践和反馈,Agent 可以提升对工具的理解和操作能力。通过开发上下文感知的决策算法,Agent能够根据当前的任务和环境条件选择最合适的工具。这包括分析任务的需求、评估可用工具的性能,以及预测工具使用的潜在结果。
共有 0 条评论