reward演进
简介(未完成) 简介(未完成) RM的作用 LLM-as-Judge vs reward model 训练 reward_loss ORM 的训练 PRM 的训练 DeepSeek-GRM RM的作用 reward model 通常只对一个完整的 response 进行打分,而不是对每个 token 打...
简介(未完成) 简介(未完成) RM的作用 LLM-as-Judge vs reward model 训练 reward_loss ORM 的训练 PRM 的训练 DeepSeek-GRM RM的作用 reward model 通常只对一个完整的 response 进行打分,而不是对每个 token 打...
简介 26年 Deep Search:搜索的本质与难点 能真正留住用户的,一定是”Deep”。 端到端 vs 固定工作流:两者的折中方案 端到端 RL赋能 模型怎么训练 怎么奖励? 数据 工程 简介 什么是Deep Research? 它是一个深度搜索和调研的Agen...
简介 商业价值 mcp 协议 协议层/消息格式 传输层/传输方式 持续演进中 mcp server 本地模式 remote模式 mcp网关(未完成) 安全 演进 使用 mcp client 与llm 结合使用 ...
简介(未完成) 对比预训练 从一个朴素的rl 框架开始 Task-Collocated Task-Separated 理念 工程 FlexRLHF 稳定性 简介(未完成) 如果说SFT是呆板的学习标准答案,那么RL是给定题目后,让学生自己寻找答案,给学生的解题打分,最后学生根据打分结...
简介(未完成) 简介(未完成) 未命名 未知 parallelism SPMD(Single Program, Multiple Data) 编程范式 FSDP(Fully Sharded Data Parallelism ) 训练框架和推理引擎的拼接 Ray也来插一脚 用于传统Pytor...
简介 简介 前奏——并行计算 基本概念 示例 执行过程 矩阵加法示例 同步机制 指令集与编译 编译-Fat Binary 程序加载cubin loading 程序执行 - Kernel Launch SIMD和SIMT cuda graph ...
简介 简介 RL从未走远 RLHF下一步 O1 0123材料 从人类决策习惯来看 其它 先聊一个问题,在知识掌握层面上,sft 后的模型为什么不如 pretrain 模型效果好?或者说,为什么 sft 后的模型在知识掌握上会有幻觉? sft 在做什么?在找一条捷径,让 pretrain 模型可以直接说出答案,而不是续写一堆 token 后再总结出答案。 ...
简介 简介 原理 代码 不太行? 逻辑推理与决策规划:LLM+MCTS 为什么要将 LLM 与 MCTS 结合起来? 为什么 LLM 可以与 MCTS 结合起来? LLM 要如何与 MCTS 有效结合起来? 在训练过程中,MCTS 可以构造出更高质量的数据(比如<问题,推理轨迹COT,答案>)以供 LLM 训练;PS:引...
简介 简介 sse JSON-RPC 2.0 websocket sse vs websocket sse SSE(Server-Sent Events,服务器推送事件)是一种基于 HTTP 的网络通信协议,允许服务器向客户端单向推送实时数据。主要特点 高效的单向通信:专为服务端到客户端的单向通信所设计,完美匹配大模型场景(客户端发送一次请求,服务端持续返...
简介 简介 RL4LMs/rl 与llm post-train PPO(Proximal Policy Optimization) 公式 伪代码 流程及示例 补充 Group Relative Policy Optimization(群体相对策略优化) 公式 伪代码 ...