Loop工程

2026/06/22 1 分钟阅读

简介
与/goal 对比
Loop怎么设计
场景
验证工程
总结

简介

当 agent 的行动已经能被 harness 约束，如何设计一个系统替人完成任务发现、任务续跑、验证闭环和状态写回。Loop Engineering 就是设计一个系统代替“你”来引导 Agent。这里所说的 Loop 可以理解为一个递归目标，你定义它，Agent 会迭代执行直到完成。是把 Agent 系统的工作范式从单次会话推进到持续运行系统。不要让人一轮一轮地提示智能体，而是设计一个系统，让系统自己推动智能体进入下一轮。 1.ReAct 解决的是 Agent 在一次任务中的思考行动范式。 2.Loop Engineering 解决的是，如何把这样的 Agent loop 放进一个更高层次的工程系统里，让它可以被触发、被验证、并在必要时停止。一个更简单的判断标准是：这个 Loop 的控制权在哪，谁来决定“继续”还是“结束”。总的来说，ReAct 这样的 Agent Loop 的控制中心仍然是模型本身；而 Loop Engineering 的控制权则外移到系统层。

从简单到复杂，常见的 Loop 系统有：

定期巡检任务：比如定期检查 CI、PR、bug、监控、工单。
事件驱动型任务：由 webhook、告警、用户反馈等变化触发。
目标易收敛的任务：如围绕测试通过（测试驱动）的软件开发任务。
优化搜索任务：围绕某个指标不断试验与逼近、保留更优解。

Loop Engineering 的核心意义：它不是取代 AI Coding，而是在 AI Coding 的基础上，进一步压缩了 Human-in-the-Loop 的比例。

用 Loop 的时候，需求和验证标准必须比原来写得更加明确。为什么？因为以前提需求哪怕模糊一点也没关系，模型先出个初版，人在 Human-in-the-Loop 的过程中可以不断纠偏、调整，靠人工反馈来保证最终结果的可靠性。但用了 Loop 之后，中间过程人不参与了，如果开头没把需求写清楚、没把验证逻辑定义明白，Loop 很可能从一开始就跑偏了，验证也不是按预想来的。跑了一大圈、烧了很多 token，最后出来的东西还是跟预期差十万八千里。

与`/goal` 对比

Agent 可以工作很久，也可以一起工作很多，但工程系统要能判断它什么时候真的可以停。

长程验证：AI Agent 从持续执行到工程化的收敛/goal 的价值是让 Agent 围绕一个目标持续推进，并在每轮结束后判断是否满足完成条件。但它更像接班机制，不是验证系统。它能把任务继续交给下一轮，却不能替工程系统证明：执行轨迹是否完整、变量状态是否可回放、分支和异常是否覆盖、step forward / backward 是否真的改变快照。所以，当目标只是“实现一个 time travel debugger”时，Agent 很容易生成一个看起来像完成了的项目：有结构，有 UI，有 README，有浅层测试。问题是，time travel debugger 的完成条件不在这些外观上，而在 trace、replay、状态恢复和语义一致性上。

如果 /goal 暴露的是长任务的纵向收敛问题，那么 dynamic workflows 暴露的是并行任务的横向归约问题。Claude Code 的 dynamic workflows 很有意思。它把长上下文硬撑这件事，转成了一个 JavaScript 编排脚本，由 runtime 在后台执行，调度多个 subagents。workflow 把 plan 放进 code，脚本保存循环、分支和中间结果，Claude 的上下文只接收最终结果。它可以用于 codebase-wide bug sweep、500-file migration、cross-checked research 这类任务。

任务状态从聊天窗口里移出来，进入脚本变量、阶段输出和 agent 结果。多个 subagents 可以并行搜索、审计、迁移、验证，最后由 workflow 合成结果。这很像 Agent 时代的 MapReduce：先切任务空间，再 fan-out 给 worker，再收集发现，再交叉验证，最后 reduce 成补丁、报告或结论。这里最贵的部分落在 reduce。workflow 如果只是并行搜索和摘要，其实不会带来足够可信的结果（它看起来很热闹，结果却未必更可靠）。几十个 subagents 一起跑，只是扩大覆盖面；如果没有交叉验证，也可能只是扩大错误面。只有当 claim 被抽取、证据被追溯、冲突被合并、失败被标记时，workflow 才开始具备工程价值。未来 Coding Agent 的竞争，会落到一个更具体的问题上：能不能把 worker 的结果归约成可信证据。并行只能扩大覆盖面。可信度来自验证关系。

长任务里最危险的地方在这里：Agent 没有失败，它只是把原始目标换成了当前最容易完成的目标。所以，long-running task 的工程重点，不在于让 Agent 更努力，或者多跑几个 session。任务每推进一段，都要能被验证。执行只是过程，收敛才是结果。没有验证点，长任务很容易变成长时间生成；有了验证点，它才开始像一个工程系统（把“继续做”变成“持续证明”）。长程验证不该被放到任务结束后，当作一份测试报告补上去。它应该出现在任务开始前、执行中、进入 Done 之前。

任务开始前，要有可检查的 done-condition，而不是一句愿望式目标。
执行过程中，要有 checkpoint，能说明当前状态为什么可以进入下一阶段。
多 Agent 并行之后，要有 reduce 机制，把结果归约成证据，而不是直接归约成总结。
进入 Done 之前，要留下 evidence bundle：命令、报告、截图、失败记录和未解风险。

/goal 让 Agent 不必一次做完，dynamic workflows 让 Agent 不必一个人做完。它们能不能进入工程交付，还要看另一组问题：目标是否有 done-condition，过程是否有 checkpoint，阶段之间是否有门禁，产物是否有凭证，失败是否能沉淀成下一次评估。

Loop怎么设计

Harness loop 可以简化成四个动作：plan、act、observe、update。模型基于任务和上下文形成计划，harness 将模型输出映射为工具调用，环境返回观察，harness 更新状态和上下文，然后进入下一轮。表面上是模型在“思考并行动”，实际是 harness 在控制模型能看到什么、能调用什么、调用结果如何进入下一轮、什么时候必须停下。Operating Loop则是发现任务（task contract）==> 调度与分派 ==> 验证与验收（独立 verifier/gate） ==> 状态写回（task ledger）。 loop engineering不是又一圈把模型包起来的结构，而是在 harness 之上运营一整条任务流的调度层，尤其是那套决定”何时停、何时把人叫回来”的退出与升级逻辑。

一个最小的 Loop

一个 automation：按节奏触发，按明确条件停。
一个 skill：存下项目背景，省得每轮重讲。
一个状态文件：记下做完了什么、下一步干啥，明天续上。
一个闸门：自动拒绝坏活的测试 / 类型检查 / 构建。

loop 跑起来后，容易翻车的方式。

震荡。智能体反复修改代码，却无法收敛。这通常意味着目标不清晰、验证信号噪声太大，或者智能体一次编辑了太多内容。解决办法是缩小目标范围并减少 diff 大小。
上下文漂移。智能体继续基于过时假设工作，错过用户的新修改或新的失败。循环会从内部腐烂。轮数越多，旧的工具输出、走过的死路、过时的推理就越堆越多，模型表现随之下滑，这叫上下文腐烂。循环会让它打转：腐烂的上下文产生更糟的决策，更糟的决策又添更多噪音，于是Agent跑得越久越蠢。解决办法是在获得有意义的观察结果后刷新上下文，并避免把初始计划当成不可动摇的东西。
假装干完了。工程师 Geoffrey Huntley 管这叫 Ralph Wiggum 循环：Agent 提前发”完成”信号，活干一半就退。原因只有一个：没有硬闸门，缺少了测试和验收。Agent不再要工具，只代表这一轮结束了，不代表活干完了。好的循环要为正确的理由停下，完成应该意味着测试通过，而不是Agent对自己的活感觉良好。
不安全的自主性。如果智能体可以运行破坏性命令、重写无关文件，或在没有评审的情况下推送变更，就可能造成严重损害。解决办法是权限控制、限定工具范围、对高风险操作进行人工批准，以及设置清晰的停止条件。
理解债务。loop 越快交付你没写过的代码，”仓库里有什么”和”你理解什么”的差距就越大。有一天，你得 debug 一个团队里没人读过的系统。
认知投降。你慢慢不再自己判断，loop 返回啥就收啥。所以，即使有了Loop，也要读 diff、抽查闸门、不让 loop 碰架构。

只要人类还掌握着 Agent 不知道的上下文，人就必须留在这个 Loop 里，把这些信息一点点补给系统。越来越真实的过程是：先写一个比较粗糙的 Spec，让 Agent 做出第一版，看完之后才发现自己真正想要的是另外一种东西，于是回头继续改 Spec，再继续生成。再持续从真实世界拿回反馈，修正自己的判断。

场景

真正适合 Loop 的任务，需要有几个特点：

这件事是否会稳定重复出现？一次性的活，好 prompt 更划算。
完成与否是否能被测试、规则、评分器或独立的检验工具判定？测试、类型检查、linter，至少一个。能——你就有闭环的前提。不能——“完成”就是主观判断。
任务失败的成本是否可控？
任务推进中需要的上下文能否被写进 skill、状态文件、知识文件？有日志、能复现、看得到哪崩了
你是否愿意为 Loop 的结果持续 review、迭代和治理？不打算，就别建

如果这五个问题里有四个以上的答案是肯定的，Loop 往往值得做。否则，你可能需要考虑更加可控的 Workflow、半自动化+人工辅助的流程，而不是无人值守的 Loop。

验证工程

长任务接下来要补的是更稳定的验证结构。运行时间继续变长，只会把这个缺口放大。

验证工程：验证工程是把目标、测试、可验证和记忆等组织成一个能持续收敛的工程 Loop。这个定义里，“验证”不是最后那个检查动作，而是让系统知道自己是否真的接近目标。

构建通过证明了工具链和代码语法在当前上下文里成立；
上传成功证明了固件可以抵达设备；
串口有输出证明了 firmware 认为自己执行到了某个状态；
摄像头看见屏幕并通过 OCR 识别到稳定 token，开始证明真实世界里的输出符合某种预期。

总结

目标 → 执行 → 测量偏差 → 反馈修正 → 再测量。这个结构有一个名字。控制论（Cybernetics / Control Theory）——研究「系统如何通过反馈维持目标状态」的学科，核心问题只有一个：怎样让一个系统在受到干扰时自动修正回目标。它把这类系统拆成三个角色：控制器决定做什么，执行器去做，传感器检查做得怎么样并把偏差送回控制器，三者构成闭环。在这个系统上跑Loop，有三种结局。

收敛到正确状态——Agent 达到目标，验证通过，且验证没有撒谎，没有幻觉，这是唯一好的结局。
收敛到错误状态——Loop 停下来了，因为传感器报告“通过”，但传感器错了：测试通过是因为测试本身写得不对，构建通过是因为出问题的路径没被执行，审阅 Agent 通过是因为它太容易同意。这比永远不停还糟糕，因为它带着自信地停下了。
发散——Loop 达不到传感器接受的状态，它越改越偏，最后到达上限退出。当你想让AI做些更复杂的事情，但是又对质量有要求时，你不能用「固定计划」去掌控这个系统。而控制论给出的框架是：提高「收敛正确」结局的概率，或者限制后两种结局的损失。那在这三个角色里，谁决定了收敛速度？是传感器。同样是做验证，一个传感器只返回 pass/fail，控制器收到后只知道“还没好”，不知道哪里没好，下一步修正近乎盲猜。但如果传感器返回的是“哪个用例挂了、哪个断言失败了、是哪个 diff 引入的”，控制器就不是在猜，而是在针对一个具体缺陷做修复。搜索空间会被进一步压缩。大多数人的直觉是反的，花大钱买最强的模型来写代码，然后用简单的chat来做验证，最后反复幻觉，离目标越来越偏。而高杠杆的方式是去设计好的传感器，从而返回更丰富的信号，而不仅仅关注模型更聪明。

李乾坤

Loop工程

简介

与`/goal` 对比

Loop怎么设计

场景

验证工程

总结

留下评论

猜您还喜欢

群聊

从长期回报、Credit Assignment 到 PPO

Code Agent

Long-horizon Agent

李乾坤

简介

与/goal 对比

Loop怎么设计

场景

验证工程

总结

留下评论

猜您还喜欢

群聊

从长期回报、Credit Assignment 到 PPO

Code Agent

Long-horizon Agent

与`/goal` 对比