简介(未整理)
BFCL 评测评估模型 Agent 能力。PS:llm 作为agent 使用时,选择工具的能力(结构化输出json);制定计划;识别问题是否充分回答;对特定工具的使用(网络检索、代码解释器等)是否得心应手。
模型AgentTuning
当前基于强化学习的智能体(LLM Agents)仍面临两大核心瓶颈:
- 单任务与单轮限制 —— 现有 RLHF 或 RLVR 方法多停留在单步决策层面,无法应对多轮环境交互与复杂任务调度;
- 缺乏统一的多任务基础设施 —— 不同任务环境接口异构,导致模型无法在多任务场景下稳定训练或高效迁移。
AgentLM:能打的 Agent 模型来了!开源模型并非没有完成智能体任务的能力,可能只是在智能体任务上缺乏对齐。对于 Agent 能力提升的策略,现有许多工作多使用 Prompt / 微调方法优化模型,在单项智能体任务上取得了卓越的表现,但智能体任务之间的促进及泛化效果有待进一步探索。智谱AI&清华KEG提出了一种对齐 Agent 能力的微调方法 AgentTuning,该方法使用少量数据微调已有模型,显著激发了模型的 Agent能力,同时可以保持模型原有的通用能力。AgentTuning 主要包括 2 个阶段。首先,我们收集并过滤得到一个多任务指令微调数据集 AgentInstrcut;然后,我们将 AgentInstruct 数据集与通用数据对模型进行混合微调。评估结果表明,AgentTuning 能让 LLM 的 Agent 能力在未见过的 Agent 任务中展现出强大的泛化,同时保持良好的通用语言能力。AgentInstruct 是一个经过筛选的智能体任务数据集。其包含 6 项智能体任务,从 Shell 交互到数据库操作,平均回合数从 5 到 35 不等,每条轨迹都有 ReAct 形式的 CoT 标注,帮助模型深入理解决策过程。PS: 大家发现Agent/react 有用,就微调LLM强化这方面的能力。
大模型Agent RL训练多轮planning技术DeepSeek R1带火基于GRPO的强化学习技术后,agentic tool use learning也开始用上了GRPO,Reinforce++, PPO, policy gradient等各种算法了(以前是SFT+DPO,需要大量的标注数据来cover bad case,当时标注高质量数据都把我标哭了),想让大模型学会使用code interpreter, web search等工具来增强现有模型的数学和推理能力, 单轮就是调用一次tool,多轮就是调用多次tools, 多轮tool use更难一点,主要是数据难以获取和建模方式(MDP这种只考虑当前状态的训练模式,还是使用full history,考虑所有的状态的模式)不清晰,tool-use rl也算是一个新的研究方向了,潜力还有待挖掘。最近的工作还是集中设计这个multi turn tool-use的prompt template,以及训练的时候需要设计rule based reward(correctness reward, format reward, tool execcution rewad等), 训练的tool output的mask操作,sampling的时候加入异步并行,融入megatron的pipeline parallel,加入多模态信息等等,训练的范式基本是先收集一波expert trajectory做sft,然后使用rl训练(例如ReTool),或者直接应用RL(例如TORL,ToolRL,OTC等),目前还没有出现一个真正为agent rl设计的方法,都是复用现有的基建(比如verl, open-rlhf, trl, ms-swift),做了一些拓展。最近在tool-use的基础上还出现了一个tool integrated reasoning, 跟cot的区别就是在推理的过程中会使用工具,这样推理过程动态的添加了search,code,各种定制化的API的输入,推理能力得到了进一步的增强。
工程调优
使用langchain中自带的react框架进行text2api的构造,发现几个问题:
- langchain完全依赖底座模型,在chatgpt4上表现很好。但在一些中文模型上无法很好识别api的输入参数,经常出现幻觉导致乱编参数的现象。
- langchain调用链路很长,导致我们在改写较复杂问题text2api的时候会有大量的工作。并且react框架因为没有penalty机制,如果出现调用错误的情况,只能人工检查然后通过增强prompt的方式进行修正。 后来我们尝试引进了Reflexion框架,相较于传统的Reactor,Reflexion提供了自我反思机制,然后在memory模块中保存之前的短期记忆和长期记忆,从而在之后的决策中,基于储存的记忆诱导大模型生成更好的答案。
Agent模型
Agent的增强训练究竟需要增强什么?
- 对研究人员和一般开发者的一个问题是,目前的开源推理模型的工具使用能力、特别是多轮工具使用能力普遍较弱。PS:后续就是,推理+多模态,推理+functioncall(plan 相对内置)等等,从工程上可能喜欢plan单独输出,进而可以人工矫正(进而持续训练),保证输出质量。
- 规划
Agent 模型是在推理模型基础上通过端到端的面向任务的工具增强训练得到的。它能够自动生成耦合的CoT思维链和CoA行动链序列。其中每个动作调用工具与外部环境交互,交互得到的反馈指导后续的推理和动作,直至任务完成。Agent 模型增强了使用工具的能力,这要求模型不局限于自身内部的推理行为,而能与外部环境进行交互。Chatbot和Reasoner仅关注人与模型之间的二元交互。而Agent 模型要求能够同时进行思考与行动,形成了由人、模型和环境构成的三元结构:使用工具与环境进行交互以获得反馈,经过多轮的思考、行动和observation后,最终生成回复。PS:其实也说明,调用工具场景能用functioncall 模型就用functioncall模型,常规llm也不是不行,但不专业。
这里有个问题:如果模型在预训练阶段已经具备了工具使用能力,并继承到了推理模型中,还需要进行专门的CoA学习么?即CoT+A是否可以自然地获得CoA的能力?当预训练基座模型的工具使用能力和推理模型的推理能力较强时,这是有可能的。讨论更一般的情况:预训练阶段的工具使用更多的关注的还是单步行动能力,适合处理孤立的任务,有点像对特定技能的学习;而CoA学习面向任务执行端到端训练,学会执行一连串相互依赖的动作,形成逻辑性强、目标导向的行动序列,更像是对技能的综合应用。以OpenAI的Deep Research为例:其核心能力是通过网络搜索完成复杂研究任务,就需要解决上面两个问题:
- 知识边界的判断:模型需要自主判断“什么时候该查资料”——既不能过度依赖搜索,也不能盲目自信;需要清楚自己的短板,并在合适的时候采取行动
- 动态环境的适配:调用搜索引擎要花时间和资源,成本高、效率低,而且网络环境一直在变,如何在有外部环境交互的情况下进行高效RL训练?
真正的LLM AgentAlexander:未来智能体会自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等,而不再依靠外部提示/prompt或工作流驱动( 真正的智能体,是不靠「提示词」工作的)。这种转变意味着智能体设计的核心复杂性将转移到模型训练阶段,从根本上提升模型的自主推理能力,最终彻底颠覆目前的应用层生态。AI 模型本身,就是未来的产品。为什么这么说?
- 通用型模型的扩展,遇到了瓶颈。GPT-4.5 发布时传递的最大信息就是:模型的能力提升只能呈线性增长,但所需算力却在指数式地飙升。尽管过去两年 OpenAI 在训练和基础设施方面进行了大量优化,但仍然无法以可接受的成本推出这种超级巨型模型。
- 定向训练(Opinionated training)的效果,远超预期。强化学习与推理能力的结合,正在让模型迅速掌握具体任务。这种能力,既不同于传统的机器学习,也不是基础大模型,而是某种神奇的第三形态。比如一些极小规模的模型突然在数学能力上变得惊人强大;编程模型不再只是简单地产生代码,甚至能够自主管理整个代码库;又比如 Claude 在几乎没有专门训练、仅靠非常贫乏的信息环境下,竟然也能玩宝可梦。
- 推理(Inference)的成本,正在极速下降。DeepSeek 最新的优化成果显示,目前全球所有可用的 GPU 资源,甚至足以支撑地球上每个人每天调用一万个顶尖模型的 token。而实际上,目前市场根本不存在这么大的需求。简单卖 token 赚钱的模式已经不再成立,模型提供商必须向价值链更高层发展。 未来 2-3 年内,所有闭源 AI 大模型提供商都会停止向外界提供 API 服务,而将转为直接提供模型本身作为产品。简单来说,API 经济即将走向终结。模型提供商与应用层(Wrapper)之间原本的蜜月期,已彻底结束了。未来很多最赚钱的 AI 应用场景(如大量仍被规则系统主导的传统产业)尚未得到充分开发。谁能训练出真正针对这些领域的专用模型,谁就能获得显著优势。
RFT/Reinforcement Fine-Tuning
RFT 只是 PPO 技术范式下的一个新应用范式。它本身并不是一个全新的技术范式,
RFT 就是针对给定 prompt,产生一些包含 cot 的 response ,再通过一个 verifier 来判断 response 是否正确,作为信号来指导模型进行参数更新。抛开 cot 过程不谈,如果我们把这套流程的 verifier 换成 reward_model ,这个流程看上去是不是感到很熟悉? —— 那就是最传统的基于 PPO 的 RLHF。RFT 和 RLHF 唯一的区别就是,它的 return (reward 信号) 是通过 verifier 算出来的,而不是一个 reward_model 计算出来的。verifier 本身则可以看成是一个 rule,比如 math 任务的答案是否正确,code 任务的代码是否能执行 …… 因此, RFT = PPO + rule_based reward_model。至于 RFT 的技术难点,我个人认为和 o1 的技术难点完全 match:高质量 cot 的生产与高准确率 verifier 的获取。
RFT 的价值:只要能定制好一个任务的 verifier,那么 RFT 便可以在这个新的领域场景,以十分之一或更少的数据,轻松超过 SFT 的结果。当然,用 PPO 训练模型能带来的所有收益也都是 RFT 的优点,这里就不赘述了。介绍中还提到,RFT 擅长解决法律、保险、医疗、金融和工程领域等任务,而这些任务通常有明确的“正确答案”。是因为 RFT 只适合答案固定的场景吗?不是,仅仅是因为答案固定的场景 verifier 非常容易制定。Sam Altman 在直播中认为 RFT 是 2024 最牛的技术进展,能帮助大家搞定专业模型的训练。说的没错,RFT 在大模型应用方向确实是划时代的,因为它真的能帮 OpenAI 卖更多的定制化服务。LLM 从业者们也能从中些许受益,掌握了 RFT 技术后,以后老板再提出做一个新的应用模型,我们就不需要再枯燥的标注大量的 SFT 数据,而是花一点时间训个 verifier 即可。
字节的 ReFT 可以看作是 OpenAI 的 RFT 在数学任务上的一个极简版实现方案
- SFT 得到一个较好的模型;
- 给定 prompt,do_sample 多次,生成一些带 cot 的 response;
- 答案正确,1 分;答案错误,0.1 分;提取不到答案(说明没有 follow 输出格式),0分;
- 根据 returns 更新模型。
ReFT 这篇论文,好就好在它是在 o1 之前发表的。因为 o1 的出现,“cot 的推理过程,MCTS 采样,PRM,ORM,rule-based reward_model” 等概念,已经在 LLM 圈深入人心了。
与agent 融合/agent rft/multi-agent plan/route
Agent RFT根据你指定的学习信号改变模型权重,教会模型什么是好的行为、什么是不够好的行为。在训练过程中,Agent会探索调用工具的各种方式,学习如何随着训练不断改进。基础RFT(很多事single step rl)不适合fine-tune Agent,Agent RFT(multi-step rl, external reward signal,对模型使用的工具/token数量施加了轻微的惩罚)允许Agent在rollout过程中调用工具,从使用工具的所有可能方式中学习。
- 训练模型更好地对工具输出进行推理
- 训练模型更好地使用工具。
- 通过调用工具endpoints,以及通过endpoint形式指定grader(调用它来获取你的自定义reward signal),允许模型在训练过程中与外部世界交互。当输出最终答案并调用grader时,通过唯一标识符将Agent的所有上下文附加到最终答案上,然后将所有这些信息传入grader,获得非常全面的评分上下文。PS: 也就是你有机会在客户现场跑一次rft
Multi-Agent 的灵活编排之路 案例,multiagent 背景下,训练plannning 模块生成plan(每一个step 是一个选中agent及其要解决的问题)
无干预,短思考,多行动:新的Multi-step LLM+RL范式在R1提出后我一直在想,这种在post-train阶段reasoning trace一直变长的现象是否是个好事。由于single-step RL任务往往是完全信息的bandit问题,模型的reasoning trace越来越长我觉得是很好理解的,因为更长的reasoning可以反复重构问题中的信息达到与pretrain阶段最匹配的token分布。但是世界上的大部分现实问题都是multi-step的,也就是说需要很多步decision的sequential impact才会拿到最后的reward,这明显用multi-step MDP去model更加合理。我坚信真正的智能必须能够解决multi-step的问题。做出一个decision后agent其实获得了新的信息,而这些新的信息对于最后的成败至关重要。在获得能够决定最后成败的新的信息前,agent不应该给出答案。而找这些信息往往并不需要过多的reasoning,都是非常简单的事情。这就是我们近期工作的核心思想。通过一种新的post-train算法,我们希望得到的model具有三个我们所期待的性质:无干预,短思考,多行动。
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述早期 RL 研究多基于 PBRFT 范式(输入提示、输出文本、获得一个偏好分数),可被视为退化的单步 MDP(单 prompt、一次性文本输出、立即终止),而 Agentic RL 则将 LLM 置于部分可观测马尔可夫决策过程(POMDP)下进行多步交互,其中关键变化在于动作空间从单一文本扩展为「文本 + 操作」(A_text => A_text + A_action);同时奖励从「单步评分」扩展为「时序反馈」,优化整条决策轨迹,把 LLM 从「文本生成器」推进为可交互的决策体。要让 LLM 真正成为智能体,仅有动作空间还不够,它必须发展出一套完整的能力体系。
- 规划(Planning):为复杂任务设定子目标与多步行动序列。通过外部引导(外部打分生成奖励)或内部驱动(自主规划并修正)实现。
- 工具使用(Tool Use):调用外部工具完成任务。从 ReAct 等静态提示模仿演进到 Tool-integrated RL (TIR),让智能体学会自主选择组合工具。
- 记忆(Memory):保持上下文连贯并积累知识,包括基于外部数据库检索记忆、Token 级别记忆和结构化记忆。中,值得关注的工作包括来自字节跳动的 MemAgent 和麻省理工大学的 MEM1,他们都通过强化学习让 LLM Agent 拥有自行管理记忆窗口的能力。
- 自我改进(Self-Improvement)同样是目前 Agent 最热门的发展方向。
- 推理(Reasoning):解决复杂问题的推导能力,分为快速直觉推理(凭经验直觉迅速答题)和慢速缜密推理(多步演绎得出严谨结论)。
- 感知(Perception):理解多模态输入的信息获取能力。 借助强化学习,这些能力由人工启发式转变为可学习的策略,规划不再依赖硬编码流程、工具使用也可由模型自主决定、端到端训练。