reward演进

简介（未完成）简介（未完成） RM的作用 LLM-as-Judge vs reward model 训练 reward_loss ORM 的训练 PRM 的训练 DeepSeek-GRM RM的作用 reward model 通常只对一个完整的 response 进行打分，而不是对每个 token 打...

2025/04/12 架构

deepresearch梳理

简介 26年 Deep Search：搜索的本质与难点能真正留住用户的，一定是”Deep”。端到端 vs 固定工作流：两者的折中方案端到端 RL赋能模型怎么训练怎么奖励？数据工程简介什么是Deep Research? 它是一个深度搜索和调研的Agen...

2025/04/12 技术

mcp学习

简介商业价值 mcp 协议协议层/消息格式传输层/传输方式持续演进中 mcp server 本地模式 remote模式 mcp网关（未完成）安全演进使用 mcp client 与llm 结合使用 ...

2025/04/06 技术

大模型RLHF框架

简介（未完成）对比预训练从一个朴素的rl 框架开始 Task-Collocated Task-Separated 理念工程 FlexRLHF 稳定性简介（未完成）如果说SFT是呆板的学习标准答案，那么RL是给定题目后，让学生自己寻找答案，给学生的解题打分，最后学生根据打分结...

2025/04/03 架构

大模型rl后训练系统

简介（未完成）简介（未完成）未命名未知 parallelism SPMD（Single Program, Multiple Data）编程范式 FSDP(Fully Sharded Data Parallelism ) 训练框架和推理引擎的拼接 Ray也来插一脚用于传统Pytor...

2025/03/30 架构

GPU与CUDA

简介简介前奏——并行计算基本概念示例执行过程矩阵加法示例同步机制指令集与编译编译-Fat Binary 程序加载cubin loading 程序执行 - Kernel Launch SIMD和SIMT cuda graph ...

2025/03/22 架构

RL闲谈

简介简介 RL从未走远 RLHF下一步 O1 0123材料从人类决策习惯来看其它先聊一个问题，在知识掌握层面上，sft 后的模型为什么不如 pretrain 模型效果好？或者说，为什么 sft 后的模型在知识掌握上会有幻觉？ sft 在做什么？在找一条捷径，让 pretrain 模型可以直接说出答案，而不是续写一堆 token 后再总结出答案。 ...

2025/03/16 架构

MCTS与LLM

简介简介原理代码不太行？逻辑推理与决策规划：LLM+MCTS 为什么要将 LLM 与 MCTS 结合起来？为什么 LLM 可以与 MCTS 结合起来？ LLM 要如何与 MCTS 有效结合起来？在训练过程中，MCTS 可以构造出更高质量的数据（比如<问题，推理轨迹COT，答案>）以供 LLM 训练；PS：引...

2025/03/16 架构

SSE 和 WebSocket 是什么？

简介简介 sse JSON-RPC 2.0 websocket sse vs websocket sse SSE（Server-Sent Events，服务器推送事件）是一种基于 HTTP 的网络通信协议，允许服务器向客户端单向推送实时数据。主要特点高效的单向通信：专为服务端到客户端的单向通信所设计，完美匹配大模型场景（客户端发送一次请求，服务端持续返...

2025/02/26 技术

rl与post-train

简介简介 RL4LMs/rl 与llm post-train PPO(Proximal Policy Optimization) 公式伪代码流程及示例补充 Group Relative Policy Optimization(群体相对策略优化) 公式伪代码 ...

2025/02/18 架构