Technology - 人工智能 - 技术 - 智能体

文章摘要： 与AI相关的、流行的、优秀的论文进行总结。

简介

以LLM（大型语言模型）为核心控制器构建智能体 Agent的核心决策逻辑是让LLM根据动态变化的环境信息选择执行具体的行动或者对结果作出判断，并影响环境，通过多轮迭代重复执行上述步骤，直到完成目标。

精简的决策流程：P（感知）→ P（规划）→ A（行动）

感知（Perception）是指Agent从环境中收集信息并从中提取相关知识的能力。
规划（Planning）是指Agent为了某一目标而作出的决策过程。
行动（Action）是指基于环境和规划做出的动作

工程实现上可以拆分出四大块核心模块：推理、记忆、工具、行动

任务拆解、思维链、提示词、长短期记忆、自注意力机制、工具、RAG知识库检索的提示此增强技术、大模型

注释

部署方案：浏览器、浏览器+虚拟机、虚拟机、跨很多工具

Planning 规划

Task Decomposition 任务分解

子目标和分解：智能体将大型任务分解为更小的、可管理的子目标，从而能够高效处理复杂任务。

思维链（CoT; Wei et al. 2022）已成为提高复杂任务模型性能的标准提示技术。该模型被指示“一步一步地思考”，以利用更多的测试时计算将困难的任务分解为更小、更简单的步骤。CoT 将大型任务转换为多个可管理的任务，并阐明了对模型思维过程的解释。
Tree of Thoughts （ToT; Yao et al. 2023）通过在每一步探索多种推理可能性来扩展 CoT。它首先将问题分解为多个思维步骤，并在每个步骤中生成多个思维，从而创建树状结构。搜索过程可以是 BFS（广度优先搜索）或 DFS（深度优先搜索），每个状态都由分类器（通过提示）或多数投票进行评估。
LLM+P（Liu et al. 2023），涉及依靠外部经典规划师进行长期规划。此方法利用规划域定义语言（PDDL）作为中间接口来描述规划问题。在这个过程中， LLM （1）将问题翻译成“问题PDDL”，然后（2）请求经典规划器基于现有的“领域PDDL”生成PDDL计划，最后（3）将PDDL计划翻译回自然语言。从本质上讲，规划步骤被外包给外部工具，假设有特定领域的PDDL和合适的规划器，这在某些机器人设置中很常见，但在许多其他领域中并不常见。

Self-Reflection 自我反省

反思和完善：智能体可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并为未来的步骤进行改进，从而提高最终结果的质量。

允许自主代理通过完善过去的行动决策和纠正以前的错误来迭代改进。它在不可避免的试错任务中起着至关重要的作用。
ReAct（ Yao et al. 2023）通过将行动空间扩展为特定任务的离散行动和语言空间的组合，将推理和行动整合在一起LLM。前者能够LLM与环境进行交互（例如使用维基百科搜索 API），而后者则提示LLM以自然语言生成推理痕迹。

Reflexion （ Shinn & Labash 2023）是一个框架，旨在为智能体提供动态记忆和自我反思能力，以提高推理能力。Reflexion 有一个标准的 RL 设置，其中奖励模型提供简单的二元奖励，操作空间遵循 ReAct 中的设置，其中特定于任务的动作空间通过语言进行增强，以实现复杂的推理步骤。在每次操作之后，代理会计算一个启发式方法，并可选择根据自反射结果决定重置环境以开始新的试验。

Memory 记忆

Sensory Memory 感觉记忆

感觉记忆：这是记忆的最早阶段，提供在原始刺激结束后保留感官信息（视觉、听觉等）印象的能力。感觉记忆通常最多只能持续几秒钟。子类别包括标志性记忆（视觉）、回声记忆（听觉）和触觉记忆（触摸）。

Short-Term Memory 短期记忆

短期记忆：所有的情境学习（参见提示工程）都是利用模型的短期记忆来学习的。

Long-Term Memory 长期记忆

长期记忆：为智能体提供了在较长时间内保留和调用（无限）信息的能力，通常是通过利用外部向量存储和快速检索。

显性/陈述性记忆：这是对事实和事件的记忆，指的是那些可以有意识地回忆起的记忆，包括情景记忆（事件和经验）和语义记忆（事实和概念）
内隐/程序性记忆：这种类型的记忆是无意识的，涉及自动执行的技能和例程，例如骑自行车或在键盘上打字。

我们可以粗略地考虑以下映射：
感觉记忆作为原始输入（包括文本、图像或其他模态）的学习嵌入表示。
短期记忆作为情境学习。它是短而有限的，因为它受到 Transformer 的有限上下文窗口长度的限制。
长期内存作为外部向量存储，代理可以在查询时处理，可通过快速检索访问。

Tool use 工具使用

智能体学习调用外部 API 以获取模型权重中缺少的额外信息（在预训练后通常很难更改），包括当前信息、代码执行能力、对专有信息源的访问等。

任何通过传感器（sensor）感知环境（environment）并通过执行器（actuator）作用于该环境的事物都可以被视为智能体（agent）。

人类有自己的欲望和偏好，因此人类有适用于自身的理性概念，这一概念与成功地选择产生环境状态序列的行动有关。

理性，取决于以下4方面：

定义成功标准的性能度量。
智能体对环境的先验知识。
智能体可以执行的动作。
智能体目前为止的感知序列。

理性智能体的定义：对于每个可能的感知序列，给定感知序列提供的证据和智能体所拥有的任何先验知识，理性智能体应该选择一个期望最大化其性能度量的动作。

如果说某种程度上，智能体依赖于其设计者的先验知识，而不是其自身的感知和学习过程，我们就说该智能体缺乏自主性（autonomy）。

人工智能的工作是设计一个智能体程序（agent program）实现智能体函数，即从感知到动作的映射。假设该程序将运行在某种具有物理传感器和执行器的计算设备上，我们称之为智能体架构（agent architecture）。

智能体 = 架构 + 程序

简单反射型智能体：基于模型的反射型智能体：智能体能够在传感器受限的情况下尽可能地跟踪世界的状态。（预测世界的变化）基于目标的智能体：基于模型、基于目标的智能体，追踪世界状态以及试图实现的一系列目标，并选择一项最终能够实现目标的动作。基于效用的智能体：

智能体和环境

良好行为：理性的概念

环境的本质

智能体的结构

单智能体与多智能体

单Agent系统主要是指一个具有自主性、交互性、协同性和智能性的软件实体，它能在目标的驱动下对环境的变化作出主动的反应，完成特定的任务。
单Agent系统的优点在于其结构相对简单，易于实现和控制。由于只有一个Agent，因此其内部状态的管理和决策过程相对直观和容易理解。
单Agent系统的缺点在于其处理复杂问题的能力有限，

多Agent系统则是由多个Agent组成的系统，这些Agent相互通讯、彼此协调，共同完成作业任务。
多Agent系统的优点在于其分布式和协作的特性，能够有效处理复杂的、分布式的问题。
每个Agent可以专注于其特定领域的任务，通过协作和沟通来解决整个系统的问题。
多Agent系统具有更好的灵活性和可扩展性，能够适应动态变化的环境。
多Agent系统也面临着一些挑战，如协调多个Agent之间的行为、处理冲突和竞争资源等问题。

从以下几个方面进行考虑：

任务复杂性：如果任务相对简单，只需要一个实体就能完成，那么单Agent系统可能更合适。相反，如果任务复杂，需要多个实体协作才能完成，那么多Agent系统可能更合适。
环境动态性：在静态或变化不大的环境中，单Agent系统可能足以应对。而在动态变化的环境中，多Agent系统可能更能适应，因为它们可以通过相互作用和协作来响应环境的变化。
资源可用性：单Agent系统通常需要较少的资源，而多Agent系统需要更多的资源来支持多个Agent之间的通信和协调。
系统的可扩展性：如果预期系统需要扩展以处理更多的任务或更大的工作负载，那么多Agent系统通常更易于扩展，因为可以简单地添加更多的Agent。
容错性和鲁棒性：多Agent系统通常更具有容错性，因为即使某个Agent失败，其他Agent可能仍能继续执行任务。而单Agent系统一旦出现故障，整个系统可能会瘫痪。
开发成本和维护：单Agent系统可能在开发和维护上更为简单和便宜，因为它们涉及较少的实体和通信协议。多Agent系统可能需要更多的开发和维护工作，以管理多个Agent之间的相互作用。
应用领域的特点：某些应用领域，如分布式控制系统、多机器人系统、智能交通系统等，本质上就是多Agent系统。在这些领域，多Agent系统可能是唯一合适的选择。