研究现状

论文 聚焦的“长时程”挑战 提供的核心解决方案
GLIDER 规划复杂度 (Planning Complexity) 时间抽象 (Temporal Abstraction)
ARTIST/DeepDive 动态执行与决策 (Dynamic Execution & Decision) 迭代式推理与行动 (Iterative Reasoning & Action)
MEM1 信息过载/记忆管理 (Information Overload / Memory Management) 主动记忆整合 (Active Memory Consolidation)
EMPG 学习信号稀疏/信用分配 (Sparse Signal / Credit Assignment) 基于不确定性的奖励调节 (Uncertainty-based Reward Modulation)
TTI (Thinking vs. Doing) 计算资源分配的困境 (Compute Budget Allocation Dilemma) 交互扩展与课程强化学习

Decision Making Agent (DMA) 领域概览

1. 什么是决策智能体 (Decision Making Agent)?

决策智能体,简单来说,就是一个能够自主行动以达成目标的AI系统。这是人工智能领域的终极目标之一。我们可以通过“OODA循环”来理解它的基本构成:

这个循环不断往复,直到目标达成。从下棋的AlphaGo,到自动驾驶汽车,再到能帮你写代码的Copilot,广义上都属于决策智能体的范畴。

2. 核心研究问题是什么?

DMA领域的研究核心,就是如何让这个“OODA循环”的每一步都尽可能地智能、高效和可靠。具体来说,研究者们关注:

3. 技术发展脉络


“长时-程复杂问题 (Long-Horizon Complex Problems)” 不仅仅是DMA领域的一个重要方向,它更是当前定义和衡量前沿决策智能体能力的核心标尺

1. 它是通往“通用智能”的必经之路

2. 它是LLM智能体当前最大的“痛点”

正如我们之前讨论的,LLM虽然强大,但在长时程问题上暴露了其所有核心弱点:

这些工作共同构成了对“长时程复杂问题”的一次多维度、全方位的“围剿”。可以说,整个前沿DMA领域,都在围绕这个核心靶心展开。

Agent 探讨

  1. agent上限由三个主要因素组成:environment (R), priority (θ), algorithm (RL)
  2. 其中 priority (θ), algorithm (RL) 都是人类比较能优化的地方,因此agent上限主要由 environment (R) 所限制 (因此设计的 priority (θ), algorithm (RL) 最好是能让agent自己能够从环境中直接学习)
  3. 环境可以视作一种图状结构。大部分的人造环境都是有限图,即存在某几个点是这个环境的上限,在这个环境中的agent上限被这些点约束。但是世界是无限树,一个无限大的图,因此里面的agent上限是无限的 (因此agent要更进一步必须在更复杂乃至真实时间进行迭代)