rl入门
简介 简介 从训练机器人行走开始 什么是强化学习 如何学习 强化学习的数学建模基础 分类 基于价值的强化学习(参考) 基于策略的强化学习(参考) rl的难点 Policy Gradient(策略梯度) 从轨迹奖励到action得失 $R(...
简介 简介 从训练机器人行走开始 什么是强化学习 如何学习 强化学习的数学建模基础 分类 基于价值的强化学习(参考) 基于策略的强化学习(参考) rl的难点 Policy Gradient(策略梯度) 从轨迹奖励到action得失 $R(...
简介(未完成) AutoGen v0.2 核心概念 群聊 AutoGen v0.4 整体设计 AutoGen-Core示例代码 AgentChat(未开始) 简介(未完成) AutoGen v0.2 AutoGen 代理是可定制的、可对话的,并且无缝地允许人类参与。in...
简介 简介 发展脉络 MoE MoE 模型存在的原因 实现 挑战 deepseek DeepSeek-V3 R1训练过程 MTP(Multi-Token Prediction) 蒸馏/distilled 其它 自动推理 线...
简介 控制反转 dependency_injector 容器 fastapi 中的依赖注入 为何在Python生态很少听说到依赖注入 简介 控制反转(IoC)是一种软件设计模式,它改变了传统的程序控制流程。在传统编程中,程序显式控制对象的创建和依赖关系,而IoC则将这种控制权转移给外部容器或框架。这种模式能够显著提高代码的灵活性和可维护性。控制反转主要包含两个核心概念:...
简介 如果重新设计一款数据库,架构会是什么样子? 我们过去开发程序,不同的模块看到的环境是同构且确定的,即使近几年的分布式系统的兴起,但对于经典的分布式软件来说,大致还是单机软件设计思路的延伸,只是通过 RPC 将多台计算机连接在一起,但是仍然环境是相对确定的,尽管很多软件对于底层的环境变化做了一些适配:例如分布式数据库的动态扩容,数据重均衡 Re-balance 等,但是本质并未变...
简介 什么是记忆 与存储对比 有哪些——分类/分层次 记忆的存取 记忆的写入 记忆的读取(未完成) 与历史人工会话的关系 记忆的使用 作为领域知识 与graph的结合 一些实践(未完成) Memory ...
简介(未完成) 对比Naive RAG 技术范式 ReWOO/planer+executor+reporter/summarier CoRAG 计划和反思 计划 技术架构 对应用的影响 简介(未完成) Agentic 源自 “Agent”(代理)在 AI 领域特指具有自主性、目标导向...
前言(未完成) 图数据模型是一种用于表示实体(节点)及其之间关系(边)的数据结构,在处理复杂关系数据时表现出色,尤其适合社交网络、推荐系统、知识图谱等应用场景。 直观的数据模型:图模型以节点(代表实体)、边(代表关系)和属性(附加信息)为基础,直接映射现实世界中的对象及其关系,使得数据结构更加直观易懂。 高效的关系查询:由于直接在图中表达实体间的关系,图模型可以快速地进行复杂的路...
简介 简介 模型结构 训练方式 Masked Language Model Next Sentence Prediction Fine-tune 与GPT 其它 BERT 是一个用 Transformers 作为特征抽取器的深度双向预训练语言理解模型。通过海量语料预训练,得到序列当前最全面的局部和全局特征表示。 ...
简介(未完成) 为什么用rerank 原理 微调 基于张量的重排序 评测(未完成) RM的发展方向 简介(未完成) Reward Mode用于评估某个状态/动作序列的好坏。 对于 Embedding 模型来说,它通常采用 Encoder 架构,它的训练目标是使得语义相似的文本在向量空间距离更近,而 Reranker ,则采用 Cross Encoder 架构,...