rl入门

简介简介从训练机器人行走开始什么是强化学习如何学习强化学习的数学建模基础分类基于价值的强化学习（参考）基于策略的强化学习（参考） rl的难点 Policy Gradient（策略梯度）从轨迹奖励到action得失 $R(...

2025/02/18 架构

AutoGen学习

简介（未完成） AutoGen v0.2 核心概念群聊 AutoGen v0.4 整体设计 AutoGen-Core示例代码 AgentChat（未开始）简介（未完成） AutoGen v0.2 AutoGen 代理是可定制的、可对话的，并且无缝地允许人类参与。in...

2025/02/11 技术

从Transformer到DeepSeek

简介简介发展脉络 MoE MoE 模型存在的原因实现挑战 deepseek DeepSeek-V3 R1训练过程 MTP(Multi-Token Prediction) 蒸馏/distilled 其它自动推理线...

2025/01/16 架构

Python ioc

简介控制反转 dependency_injector 容器 fastapi 中的依赖注入为何在Python生态很少听说到依赖注入简介控制反转（IoC）是一种软件设计模式，它改变了传统的程序控制流程。在传统编程中，程序显式控制对象的创建和依赖关系，而IoC则将这种控制权转移给外部容器或框架。这种模式能够显著提高代码的灵活性和可维护性。控制反转主要包含两个核心概念：...

2024/12/19 技术

从0到1构建一个db

简介如果重新设计一款数据库，架构会是什么样子？我们过去开发程序，不同的模块看到的环境是同构且确定的，即使近几年的分布式系统的兴起，但对于经典的分布式软件来说，大致还是单机软件设计思路的延伸，只是通过 RPC 将多台计算机连接在一起，但是仍然环境是相对确定的，尽管很多软件对于底层的环境变化做了一些适配：例如分布式数据库的动态扩容，数据重均衡 Re-balance 等，但是本质并未变...

2024/12/07 技术

上下文记忆——AI Agent native 的任务存储机制

简介什么是记忆与存储对比有哪些——分类/分层次记忆的存取记忆的写入记忆的读取（未完成）与历史人工会话的关系记忆的使用作为领域知识与graph的结合一些实践（未完成） Memory ...

2024/11/20 技术

线性RAG的进化——agentic rag

简介（未完成）对比Naive RAG 技术范式 ReWOO/planer+executor+reporter/summarier CoRAG 计划和反思计划技术架构对应用的影响简介（未完成） Agentic 源自 “Agent”（代理）在 AI 领域特指具有自主性、目标导向...

2024/10/21 技术

图数据库的一些考量

前言（未完成）图数据模型是一种用于表示实体（节点）及其之间关系（边）的数据结构，在处理复杂关系数据时表现出色，尤其适合社交网络、推荐系统、知识图谱等应用场景。直观的数据模型：图模型以节点（代表实体）、边（代表关系）和属性（附加信息）为基础，直接映射现实世界中的对象及其关系，使得数据结构更加直观易懂。高效的关系查询：由于直接在图中表达实体间的关系，图模型可以快速地进行复杂的路...

2024/10/12 技术

bert

简介简介模型结构训练方式 Masked Language Model Next Sentence Prediction Fine-tune 与GPT 其它 BERT 是一个用 Transformers 作为特征抽取器的深度双向预训练语言理解模型。通过海量语料预训练，得到序列当前最全面的局部和全局特征表示。 ...

2024/10/11 架构

rerank微调

简介（未完成）为什么用rerank 原理微调基于张量的重排序评测（未完成） RM的发展方向简介（未完成） Reward Mode用于评估某个状态/动作序列的好坏。对于 Embedding 模型来说，它通常采用 Encoder 架构，它的训练目标是使得语义相似的文本在向量空间距离更近，而 Reranker ，则采用 Cross Encoder 架构，...

2024/10/10 架构