少于 1 分钟阅读

简介(未完成)

2026年,模型的推理能力、tool calling 能力、长上下文处理能力都已经达到了一个临界点。Long-horizon Agent 不再是”酷炫的 demo”,而是真正能够产出价值的工具。

  1. 不变的:在正确的时机,以正确的格式,向 LLM 提供正确的信息。
  2. 变化的:构建 Long-horizon Agent 涉及很多微妙的工程细节(compaction 策略、subagent 通信、error handling 等)
  3. 上下文管理 - Compaction 策略:当上下文窗口不够时如何压缩 - Memory 管理:如何在跨会话中保持关键信息。像“经验库”,增强稳定性、抗遗忘与长期一致性。 - Subagent 通信:如何让主 Agent 和子 Agent 高效协作
    • Tool 选择:什么时候使用什么工具。pi的agent loop 只提供了4个工具:read/write/edit/bash。有bash 就可以安装世界上所有软件,有read/write/edit就有了读写、做事儿、记忆的能力。我们可以去掉一些工具,更多依赖 Skill。PS:文件系统权限

本质:怎么让AI可靠地完成超出单次上下文窗口的复杂工程任务。

场景

Long Horizon Task(LHT)

  1. Coding。编程在大多数用例中现在已经解决了。
  2. AI SRE,能够进行深度日志分析和故障排查
  3. Deepresearch
  4. openclaw

AI Coding

用AI生成代码,本质上和生成其他非结构化的序列,是一样的。但代码实在是太特殊了,它是数字世界的源头。理论上说,只要我们能可控地生成代码,就能可控地执行任意流程,意味着可以在数字世界做任何事情。所以现在很多人在说,Coding Agent就是通用智能体,这有相当的道理。这一论断在现实中碰到的阻碍,目前看只有两个:

  1. 可控地生成代码,仍然是一件专业的事情,而非普通大众能够完成。
  2. 并非所有软件都有编程接口,可以使用代码来进行控制。当然,第二个障碍是相对的。只要进入到某个系统层面上,拿到相应的系统权限,也没有什么软件是无法用代码控制的。难易程度的区别。

特点

  1. 运行时间更长,中间状态很多,需要记忆与上下文管理。
  2. 自主决策能力,需要长期规划,而不是局部贪心。
  3. 中途接受外部的信息、纠正指令等

这使得模型的上下文规模呈指数级膨胀。文件内容、构建日志、多轮工具输出、任务中间状态、先前讨论……这些都逐步挤进了 Prompt,使得原本相对可控的短对话场景,变成了复杂的多源异构大上下文输入。结果非常直接:

  1. 模型需要处理更长的 Token → 推理时延增加,成本上升;
  2. 有效信息被噪声淹没或被截断 → 输出质量下降;
  3. Agent 在长流程中“忘记”关键上下文 → 任务失败率上升;

模型缺点

  1. 一口吃成胖子。你给AI一句”做个Web应用”,它会尝试一次性把所有功能都怼出来。写到一半context用完了,下一轮的AI继续接手——但它对前任的工作一无所知。代码烂尾在那,而AI头也不回。
  2. 过早宣布胜利。 搞了几个功能之后,AI审视了一下当前状态,得出结论:”看起来差不多了”,然后收工。打开一看,核心逻辑却根本就是空壳。

之前的解法比较朴素:一个初始化Agent负责拆任务,一个编码Agent每次只做一个功能,做完写进度文件、提交git。相当于给AI发了一本固定化手册,但天花板很快到了。 现在的解法:

  1. Generator之外给一个Evaluator,批评别人比自我批评容易,在AI身上也一样。
  2. Agent之间怎么沟通?写文件一个Agent把内容写到一个文件里,另一个Agent打开那个文件来读。
  3. Sonnet 4.5在上下文窗口接近极限时,会表现出一种类似”焦虑”的行为模式——开始草草收尾、匆忙总结、过早宣布完成。Anthropic试过上下文压缩,比如把前面的对话总结缩短,让同一个Agent继续干,但发现不够。压缩之后Agent虽然context宽裕了,但这种”快到极限了”的行为惯性并没有消失。最后的解法相当暴力——直接重置。 起一个全新的Agent,什么都不记得,交接靠的是结构化文件——上一个Agent留下进度报告和状态文件。到了Opus 4.6,这个”上下文焦虑”的问题基本没了。于是重置机制被砍掉,换成了SDK内置的自动压缩来处理context增长。一个在4.5上不得不存在的核心机制,在4.6上就成了冗余组件
  4. 文章作者自己写到了自己走了弯路——他一开始想大刀阔斧地简化框架,一次性砍掉了好几个组件,结果性能直接崩了。后来改成一个一个地拆,每拆一个就跑一遍完整测试,看这个组件到底是真正承重还是历史遗留。其实这个方法论适用任何复杂系统的简化都该这么做:别猜,一个一个拆,让结果说话。每一个被砍掉的组件,本质上都是对”模型做不到X”这个假设的一次推翻。你今天写的所有AI相关的”最佳实践”,本质上都是”当前模型的补丁集”。 新模型一出,有些补丁该删,有些新的需要打。
  5. 今天你需要评估Agent来兜底,明年模型可能自己就能做好自评了。但明年你可能在让AI做更复杂十倍的任务,又会冒出新的失败模式,需要新的框架组件来应对。

其它

赋予智能体计算机访问权限(文件系统+Shell环境)是能力跃迁的关键——文件系统提供持久化上下文存储,Shell使其调用工具链、CLI或自主生成代码。

留下评论