大模型可观测性 | 李乾坤的博客

技术

Agent调优 Agent评估 OS Agent Agent与软件开发提升Agent能力——上下文工程 llm评测 rl微调分布式Agent与A2A deepresearch梳理 mcp学习 SSE 和 WebSocket 是什么？ AutoGen学习 Python ioc 从0到1构建一个db 上下文记忆——AI Agent native 的任务存储机制线性RAG的进化——agentic rag 图数据库的一些考量推理LLM梳理 Agent演进 LLM预训练向量数据库的一些考量 fastapi+sqlalchemy进行项目开发 LLM微调实践 Python协程实现 Agent Functon Calling LLamaIndex入门另一种微服务架构Multi-Agent Python虚拟机 LangGraph工作流编排 Python实践增强型LLM——Agent 激发LLM涌现——提示工程 LLM微调理论大佬谈LLM LLM外挂知识库 LLMOps 多模态LLM Python一些比较有意思的库 Transformers源码学习 LangChain源码学习通用分布式计算引擎Ray Python并发 go依赖注入 go collection gc的基本原理 golang性能分析及优化数据湖高性能计算与存储 Linux2.1.13网络源代码学习《大数据经典论文解读》三驾马车学习 Spark 内存管理及调优 Yarn学习从Spark部署模式开始讲源码分析容器狂占内存资源怎么办？多角度理解一致性 golang io使用及优化模式 Flink学习 c++学习学习ebpf go设计哲学 ceph学习学习mesh kvm虚拟化学习MQ go编译器以及defer实现学习go 为什么要有堆栈汇编语言计算机组成原理运行时和库 Prometheus client mysql 事务 mysql 事务的隔离级别 mysql 索引坏味道学习分布式学习网络学习Linux go堆内存分配 golang 系统调用与阻塞处理 Goroutine 调度过程重新认识cpu mosn有的没的负载均衡泛谈单元测试的新解读《Redis核心技术与实现》笔记《Prometheus监控实战》笔记 Prometheus 告警学习 calico源码分析对容器云平台的理解 Prometheus 源码分析并发的成本基础设施优化 hashicorp raft源码学习 docker 架构 mosn细节与微服务框架整合 Java动态代理编程范式并发通信模型《网络是怎样连接的》笔记 go channel codereview gc分析 jvm 线程实现 go打包机制 go interface及反射如何学习Kubernetes 《编译原理之美》笔记——后端部分《编译原理之美》笔记——前端部分 Pilot MCP协议分析 go gc 内存管理玩法汇总软件机制 istio流量管理 Pilot源码分析 golang io 学习Spring mosn源码浅析 MOSN简介《datacenter as a computer》笔记学习JVM Tomcat源码分析 Linux可观测性学习存储学计算 Gotty源码分析 kubernetes operator kaggle泰坦尼克问题实践 kubernetes扩缩容神经网络模型优化直觉上理解深度学习如何学习机器学习 TIDB源码分析什么是云原生 Alibaba Java诊断工具Arthas TIDB存储——TIKV 《Apache Kafka源码分析》——简介 netty中的线程池 guava cache 源码分析 Springboot 启动过程分析 Spring 创建Bean的年代变迁 Linux内存管理自定义CNI IPAM 共识算法 spring redis 源码分析 kafka实践 spring kafka 源码分析 Linux进程调度让kafka支持优先级队列 Codis源码分析 Redis源码分析 C语言学习《趣谈Linux操作系统》笔记 docker和k8s安全访问机制 jvm crash分析 Prometheus 学习 Kubernetes监控 Kubernetes 控制器模型容器日志采集容器狂占资源怎么办？ Kubernetes资源调度——scheduler 时序性数据库介绍及对比 influxdb入门 maven的基本概念《Apache Kafka源码分析》——server Kubernetes类型系统源码分析体会《数据结构与算法之美》——算法新解 Kubernetes源码分析——controller mananger Kubernetes源码分析——apiserver Kubernetes源码分析——kubelet Kubernetes介绍 ansible学习 Kubernetes源码分析——从kubectl开始 jib源码分析之Step实现线程排队 jib源码分析之细节跨主机容器通信 jib源码分析及应用为容器选择一个合适的entrypoint kubernetes yaml配置《持续交付36讲》笔记 mybatis学习程序猿应该知道的无锁数据结构和算法 CNI——容器网络是如何打通的为什么很多业务程序猿觉得数据结构和算法没用？串一串一致性协议当我在说PaaS时，我在说什么《数据结构与算法之美》——数据结构笔记 PouchContainer技术分享体会 harbor学习用groovy 来动态化你的代码精简代码的利器——lombok 学习《深入剖析kubernetes》笔记编程语言那些事儿 rxjava3——背压 rxjava2——线程切换 spring cloud 初识《深入拆解java 虚拟机》笔记《how tomcat works》笔记 hystrix 学习 rxjava1——概念 Redis 学习 TIDB 学习如何分发计算 Storm 学习 AQS1——论文学习 Unsafe Spark Stream 学习 linux vfs轮廓《自己动手写docker》笔记 java8 实践中本聪比特币白皮书细读区块链泛谈比特币大杂烩总纲——如何学习分布式系统 hbase 泛谈 forkjoin 泛谈看不见摸不着的cdn是啥《jdk8 in action》笔记程序猿视角看网络 bgp初识 calico学习 AQS——粗略的代码分析我们能用反射做什么 web 跨域问题《clean code》笔记《Elasticsearch权威指南》笔记 mockito简介及源码分析 2017软件开发小结—— 从做功能到做系统《Apache Kafka源码分析》——clients dns隐藏的一个坑《mysql技术内幕》笔记 log4j学习为什么netty比较难懂？递归、回溯、动态规划 apollo client源码分析及看待面向对象设计学习并发 docker运行java项目的常见问题 OpenTSDB 入门 spring事务小结分布式事务 javascript应用在哪里《netty in action》读书笔记 netty对http2协议的解析 ssl证书是什么东西 http那些事苹果APNs推送框架pushy apple 推送那些事儿编写java框架的几大利器 java内存模型和jvm内存布局 java exception Linux IO学习 netty内存管理测试环境docker化实践 netty在框架中的使用套路 Nginx简单使用《Linux内核设计的艺术》小结 Go并发机制及语言层工具 Linux网络源代码学习——数据包的发送与接收《docker源码分析》小结 docker namespace和cgroup zookeeper三重奏数据库的一些知识 Spark 泛谈链式处理的那些套路 netty回顾 Thrift基本原理与实践（二） Thrift基本原理与实践（一）回调异步执行抽象——Executor与Future Docker0.1.0源码分析 java gc Jedis源码分析深度学习泛谈 Linux网络命令操作 JTA与TCC 换个角度看待设计模式 Scala初识向Hadoop学习NIO的使用以新的角度看数据结构并发控制相关的硬件与内核支持 systemd 简介 quartz 源码分析基于docker搭建测试环境(二) spring aop 实现原理简述自己动手写spring（八）支持AOP 自己动手写spring（七）类结构设计调整分析log日志自己动手写spring（六）支持FactoryBean 自己动手写spring（九）总结自己动手写spring（五） bean的生命周期管理自己动手写spring（四）整合xml与注解方式自己动手写spring（三）支持注解方式自己动手写spring（二）创建一个bean工厂自己动手写spring（一）使用digester varnish 简单使用关于docker image的那点事儿基于docker搭建测试环境分布式配置系统 JVM执行 git maven/ant/gradle/make使用再看tcp kv系统 java nio的多线程扩展《Concurrency Models》笔记回头看Spring IOC IntelliJ IDEA使用 Java泛型 vagrant 使用 Go常用的一些库 Python初学 Goroutine 调度模型虚拟网络《程序员的自我修养》小结 Kubernetes存储访问Kubernetes上的Service Kubernetes副本管理 Kubernetes pod 组件 Go基础 JVM类加载硬币和扑克牌问题 LRU实现 virtualbox 使用 ThreadLocal小结 docker快速入门

生活

元宇宙《阿里技术人生》系列小结 2021年终小结得到课程笔记汇总《用户增长》笔记《精进》笔记微信读书笔记《技术管理36讲》笔记 2020年终小结《暗时间》笔记《见识》笔记 2019年终小结《智能商业》笔记《数学之美》笔记《技术领导力300讲》笔记——有感觉的话《程序员的数学基础课》笔记对技术趋势的应对用技术解决“非技术”问题《技术领导力300讲》笔记——管理篇《大咖读书会》笔记一切瓶颈都是思维瓶颈《技术领导力300讲》笔记认知的几点规律程序猿成长猿性的弱点如何看待大牛的经验文《原则》笔记《so good they can't ignore you》笔记尝试带好一个小团队《技术的本质》笔记 2018年终小结记第一次飞翔一个程序员眼中的《东京女子图鉴》人生路，你不是坐在观众席上，而是在角斗场中时不时应该看看的几篇文章有些地方，值得去他个春夏秋冬东白山小记你或许应该学一门乐器，比如吉他东甲岛小记清明节出行小记近来的生活

架构

rl与sft 大模型infra综述 OpenTelemetry及生态大模型可观测性 grpo演进 rlhf演进 agent框架 reward演进大模型RLHF框架大模型rl后训练系统 GPU与CUDA RL闲谈 MCTS与LLM rl与post-train rl入门从Transformer到DeepSeek bert rerank微调大模型推理tips RAG向量检索与微调 dddfirework源码分析 RAG与知识图谱大模型推理服务框架vLLM 大模型推理服务框架模型服务化（未完成）大模型Post-Training 大模型训练大模型推理从Attention到Transformer k8s设备管理 ddd从理念到代码如何应用LLM 语言模型的发展多类型负载协调员Koordinator controller-runtime细节分析 finops学习 kubevela多集群 kubevela中cue的应用基于k8s的工作流 kubevela源码分析容器和CPU那些事儿数据集管理fluid 应用管理平台kubevela karmada支持crd 多集群管理 AutoML和AutoDL 特征平台实时训练分布式链路追踪 K8S YAML 资源清单管理方案 tensorflow原理——python层分析如何学习tensorflow 数据并行——allreduce 数据并行——ps 推荐系统embedding原理及实践机器学习中的python调用c 机器学习训练框架概述 tensornet源码分析大模型训练和推理 X的生成——特征工程 tvm tensorflow原理——core层分析模型演变《深度学习推荐系统实战》笔记 keras 和 Estimator tensorflow分布式训练分布式训练的一些问题基于Volcano的弹性训练图神经网络 pytorch弹性分布式训练从混部到统一调度对序列建模——从RNN到Attention pytorch分布式训练 CNN 《动手学深度学习》笔记 pytorch与线性回归多活 volcano特性源码分析推理服务 kubebuilder 学习 mpi 学习pytorch client-go学习提高gpu 利用率 GPU与容器的结合 GPU入门 AI云平台梳理 tensorflow学习 tf-operator源码分析 k8s批处理调度/Job调度喜马拉雅容器化实践 Kubernetes 实践学习rpc BFF openkruise学习可观察性和监控系统基于Kubernetes选主及应用《许式伟的架构课》笔记 Admission Controller 与 Admission Webhook 发布平台系统设计 k8s水平扩缩容 Scheduler如何给Node打分 Scheduler扩展深入controller openkruise cloneset学习 controller-runtime源码分析 pv与pvc实现 csi学习 client-go informer源码分析 kubelet 组件分析调度实践 Pod是如何被创建出来的？《软件设计之美》笔记 mecha 架构学习 Kubernetes events学习及应用 CRI——kubelet与容器引擎之间的接口资源调度泛谈业务系统设计原则 grpc学习元编程以应用为中心 istio学习下一代微服务Service Mesh 《实现领域驱动设计》笔记概率论 serverless 泛谈《架构整洁之道》笔记处理复杂性那些年追过的并发服务器端编程网络通信协议架构大杂烩如何学习架构《反应式设计模式》笔记项目的演化特点反应式架构摸索函数式编程的设计模式服务化 ddd反模式——CRUD的败笔研发效能平台重新看面向对象设计业务系统设计的一些体会函数式编程《左耳听风》笔记业务程序猿眼中的微服务管理 DDD实践——CQRS 项目隔离——案例研究《编程的本质》笔记系统故障排查汇总及教训平台支持类系统的几个点代码腾挪的艺术 abtest 系统设计汇总《从0开始学架构》笔记初级权限系统设计领域驱动理念现有上传协议分析移动网络下的文件上传要注意的几个问题推送系统的几个基本问题做配置中心要想好的几个基本问题不同层面的异步分层那些事儿用户认证问题资源的分配与回收——池消息/任务队列

产品

《幕后产品》笔记技术人员的产品思维

标签

Container 23

容器狂占内存资源怎么办？ kvm虚拟化对容器云平台的理解 docker 架构容器日志采集容器狂占资源怎么办？ jib源码分析之Step实现 jib源码分析之细节 jib源码分析及应用为容器选择一个合适的entrypoint 《持续交付36讲》笔记 PouchContainer技术分享体会 harbor学习《自己动手写docker》笔记 docker运行java项目的常见问题测试环境docker化实践《docker源码分析》小结 docker namespace和cgroup Docker0.1.0源码分析基于docker搭建测试环境(二) 关于docker image的那点事儿基于docker搭建测试环境 docker快速入门

Concurrency 14

并发的成本并发通信模型 jvm 线程实现那些年追过的并发线程排队 AQS1——论文学习 forkjoin 泛谈 AQS——粗略的代码分析学习并发不同层面的异步异步执行抽象——Executor与Future 并发控制相关的硬件与内核支持《Concurrency Models》笔记 ThreadLocal小结

Life 41

元宇宙《阿里技术人生》系列小结 2021年终小结得到课程笔记汇总《精进》笔记微信读书笔记《技术管理36讲》笔记 2020年终小结《暗时间》笔记《见识》笔记 2019年终小结《智能商业》笔记《数学之美》笔记《技术领导力300讲》笔记——有感觉的话《程序员的数学基础课》笔记对技术趋势的应对用技术解决“非技术”问题《技术领导力300讲》笔记——管理篇《大咖读书会》笔记一切瓶颈都是思维瓶颈《技术领导力300讲》笔记认知的几点规律程序猿成长猿性的弱点如何看待大牛的经验文《原则》笔记《so good they can't ignore you》笔记尝试带好一个小团队《技术的本质》笔记 2018年终小结 2017软件开发小结—— 从做功能到做系统记第一次飞翔一个程序员眼中的《东京女子图鉴》人生路，你不是坐在观众席上，而是在角斗场中时不时应该看看的几篇文章有些地方，值得去他个春夏秋冬东白山小记你或许应该学一门乐器，比如吉他东甲岛小记清明节出行小记近来的生活

Tool 8

maven的基本概念 ansible学习 Nginx简单使用 git maven/ant/gradle/make使用 IntelliJ IDEA使用 vagrant 使用 virtualbox 使用

Algorithm 8

《数据结构与算法之美》——算法新解无锁数据结构和算法为什么很多业务程序猿觉得数据结构和算法没用？《数据结构与算法之美》——数据结构笔记递归、回溯、动态规划以新的角度看数据结构硬币和扑克牌问题 LRU实现

JVM 10

gc分析学习JVM Alibaba Java诊断工具Arthas jvm crash分析《深入拆解java 虚拟机》笔记 Unsafe java内存模型和jvm内存布局 java gc JVM执行 JVM类加载

Go 21

go依赖注入 go collection golang性能分析及优化 golang io使用及优化模式 go设计哲学 go编译器以及defer实现学习go go堆内存分配 golang 系统调用与阻塞处理 Goroutine 调度过程 go channel go打包机制 go interface及反射 go gc golang io Gotty源码分析 Codis源码分析 Go并发机制及语言层工具 Go常用的一些库 Goroutine 调度模型 Go基础

Kubernetes 65

k8s设备管理多类型负载协调员Koordinator controller-runtime细节分析 finops学习 kubevela多集群 kubevela中cue的应用基于k8s的工作流 kubevela源码分析容器和CPU那些事儿数据集管理fluid 应用管理平台kubevela karmada支持crd 多集群管理 K8S YAML 资源清单管理方案从混部到统一调度 volcano特性源码分析 kubebuilder 学习 client-go学习 tf-operator源码分析 k8s批处理调度/Job调度喜马拉雅容器化实践 Kubernetes 实践 openkruise学习基于Kubernetes选主及应用 Admission Controller 与 Admission Webhook k8s水平扩缩容 Scheduler如何给Node打分 Scheduler扩展深入controller openkruise cloneset学习 controller-runtime源码分析 pv与pvc实现 csi学习 client-go informer源码分析 kubelet 组件分析调度实践 Pod是如何被创建出来的？ Kubernetes events学习及应用 CRI——kubelet与容器引擎之间的接口资源调度泛谈如何学习Kubernetes 以应用为中心 kubernetes operator kubernetes扩缩容 serverless 泛谈什么是云原生自定义CNI IPAM docker和k8s安全访问机制 Kubernetes监控 Kubernetes 控制器模型 Kubernetes资源调度——scheduler Kubernetes类型系统 Kubernetes源码分析——controller mananger Kubernetes源码分析——apiserver Kubernetes源码分析——kubelet Kubernetes介绍 Kubernetes源码分析——从kubectl开始 kubernetes yaml配置 CNI——容器网络是如何打通的当我在说PaaS时，我在说什么《深入剖析kubernetes》笔记 Kubernetes存储访问Kubernetes上的Service Kubernetes副本管理 Kubernetes pod 组件

Other 5

《datacenter as a computer》笔记中本聪比特币白皮书细读区块链泛谈比特币大杂烩《程序员的自我修养》小结

Network 15

Linux2.1.13网络源代码学习学习网络负载均衡泛谈 calico源码分析《网络是怎样连接的》笔记跨主机容器通信看不见摸不着的cdn是啥程序猿视角看网络 bgp初识 calico学习 dns隐藏的一个坑 Linux网络源代码学习——数据包的发送与接收 Linux网络命令操作再看tcp 虚拟网络

Python 8

Python ioc fastapi+sqlalchemy进行项目开发 Python协程实现 Python虚拟机 Python实践 Python一些比较有意思的库 Python并发 Python初学

Java 20

Java动态代理 Tomcat源码分析 guava cache 源码分析用groovy 来动态化你的代码精简代码的利器——lombok 学习《how tomcat works》笔记 hystrix 学习 java8 实践《jdk8 in action》笔记我们能用反射做什么 mockito简介及源码分析 log4j学习 apollo client源码分析及看待面向对象设计编写java框架的几大利器 java exception zookeeper三重奏回调 Jedis源码分析 quartz 源码分析 Java泛型

Spring 17

学习Spring Springboot 启动过程分析 Spring 创建Bean的年代变迁 spring redis 源码分析 spring cloud 初识 spring事务小结 spring aop 实现原理简述自己动手写spring（八）支持AOP 自己动手写spring（七）类结构设计调整自己动手写spring（六）支持FactoryBean 自己动手写spring（九）总结自己动手写spring（五） bean的生命周期管理自己动手写spring（四）整合xml与注解方式自己动手写spring（三）支持注解方式自己动手写spring（二）创建一个bean工厂自己动手写spring（一）使用digester 回头看Spring IOC

Netty 10

netty中的线程池为什么netty比较难懂？《netty in action》读书笔记 netty对http2协议的解析苹果APNs推送框架pushy netty内存管理 netty在框架中的使用套路 netty回顾向Hadoop学习NIO的使用 java nio的多线程扩展

Storage 25

从0到1构建一个db 图数据库的一些考量向量数据库的一些考量数据湖高性能计算与存储 ceph学习 mysql 事务 mysql 事务的隔离级别 mysql 索引《Redis核心技术与实现》笔记学习存储 TIDB源码分析 TIDB存储——TIKV Redis源码分析时序性数据库介绍及对比 influxdb入门 mybatis学习 Redis 学习 TIDB 学习 hbase 泛谈《Elasticsearch权威指南》笔记《mysql技术内幕》笔记 OpenTSDB 入门数据库的一些知识 kv系统

Distribute 9

多角度理解一致性学习分布式 hashicorp raft源码学习共识算法串一串一致性协议总纲——如何学习分布式系统分布式事务 JTA与TCC 分布式配置系统

MQ 8

学习MQ 《Apache Kafka源码分析》——简介 kafka实践 spring kafka 源码分析让kafka支持优先级队列《Apache Kafka源码分析》——server 《Apache Kafka源码分析》——clients 消息/任务队列

WEB 6

SSE 和 WebSocket 是什么？ web 跨域问题 javascript应用在哪里 ssl证书是什么东西 http那些事 varnish 简单使用

Linux 11

学习ebpf 学习Linux Linux可观测性 Linux内存管理 Linux进程调度《趣谈Linux操作系统》笔记 linux vfs轮廓 Linux IO学习《Linux内核设计的艺术》小结 systemd 简介分析log日志

Scala 1

Scala初识

Code 9

坏味道单元测试的新解读 codereview 源码分析体会程序猿应该知道的《编程的本质》笔记代码腾挪的艺术《clean code》笔记换个角度看待设计模式

MachineLearning 101

Agent调优 Agent评估 OS Agent rl与sft 大模型infra综述 Agent与软件开发提升Agent能力——上下文工程 llm评测大模型可观测性 rl微调 grpo演进 rlhf演进 agent框架分布式Agent与A2A reward演进 deepresearch梳理 mcp学习大模型RLHF框架大模型rl后训练系统 GPU与CUDA RL闲谈 MCTS与LLM rl与post-train rl入门 AutoGen学习从Transformer到DeepSeek 上下文记忆——AI Agent native 的任务存储机制线性RAG的进化——agentic rag bert rerank微调大模型推理tips 推理LLM梳理 Agent演进 LLM预训练 RAG向量检索与微调 LLM微调实践 RAG与知识图谱大模型推理服务框架vLLM Agent Functon Calling LLamaIndex入门另一种微服务架构Multi-Agent LangGraph工作流编排大模型推理服务框架模型服务化（未完成）大模型Post-Training 大模型训练大模型推理从Attention到Transformer 增强型LLM——Agent 激发LLM涌现——提示工程 LLM微调理论大佬谈LLM LLM外挂知识库 LLMOps 多模态LLM Transformers源码学习 LangChain源码学习如何应用LLM 语言模型的发展 AutoML和AutoDL 特征平台实时训练 tensorflow原理——python层分析如何学习tensorflow 数据并行——allreduce 数据并行——ps 推荐系统embedding原理及实践机器学习中的python调用c 机器学习训练框架概述 tensornet源码分析大模型训练和推理 X的生成——特征工程 tvm tensorflow原理——core层分析模型演变《深度学习推荐系统实战》笔记 keras 和 Estimator tensorflow分布式训练分布式训练的一些问题基于Volcano的弹性训练图神经网络 pytorch弹性分布式训练对序列建模——从RNN到Attention pytorch分布式训练 CNN 《动手学深度学习》笔记 pytorch与线性回归推理服务 mpi 学习pytorch 提高gpu 利用率 GPU与容器的结合 GPU入门 AI云平台梳理 tensorflow学习 kaggle泰坦尼克问题实践神经网络模型优化概率论直觉上理解深度学习如何学习机器学习深度学习泛谈

Practice 15

发布平台系统设计服务化项目隔离——案例研究系统故障排查汇总及教训平台支持类系统的几个点 abtest 系统设计汇总初级权限系统设计现有上传协议分析移动网络下的文件上传要注意的几个问题推送系统的几个基本问题做配置中心要想好的几个基本问题 apple 推送那些事儿用户认证问题链式处理的那些套路资源的分配与回收——池

RPC 6

学习rpc grpc学习网络通信协议业务程序猿眼中的微服务管理 Thrift基本原理与实践（二） Thrift基本原理与实践（一）

Compute 11

通用分布式计算引擎Ray 《大数据经典论文解读》三驾马车学习 Spark 内存管理及调优 Yarn学习从Spark部署模式开始讲源码分析 Flink学习学计算如何分发计算 Storm 学习 Spark Stream 学习 Spark 泛谈

Architecture 20

多活 BFF 《许式伟的架构课》笔记《软件设计之美》笔记业务系统设计原则元编程《架构整洁之道》笔记处理复杂性服务器端编程架构大杂烩如何学习架构项目的演化特点函数式编程的设计模式研发效能平台重新看面向对象设计业务系统设计的一些体会函数式编程《左耳听风》笔记《从0开始学架构》笔记分层那些事儿

DDD 6

dddfirework源码分析 ddd从理念到代码《实现领域驱动设计》笔记 ddd反模式——CRUD的败笔 DDD实践——CQRS 领域驱动理念

Reactive 5

《反应式设计模式》笔记反应式架构摸索 rxjava3——背压 rxjava2——线程切换 rxjava1——概念

Basic 13

gc的基本原理为什么要有堆栈汇编语言计算机组成原理运行时和库重新认识cpu 基础设施优化编程范式《编译原理之美》笔记——后端部分《编译原理之美》笔记——前端部分内存管理玩法汇总软件机制编程语言那些事儿

Product 3

《用户增长》笔记《幕后产品》笔记技术人员的产品思维

Monitor 8

OpenTelemetry及生态分布式链路追踪 Prometheus client 可观察性和监控系统《Prometheus监控实战》笔记 Prometheus 告警学习 Prometheus 源码分析 Prometheus 学习

CPP 2

c++学习 C语言学习

Mesh 12

学习mesh mosn有的没的 mecha 架构学习 mosn细节与微服务框架整合 Pilot MCP协议分析 istio流量管理 Pilot源码分析 mosn源码浅析 MOSN简介 istio学习下一代微服务Service Mesh

大模型可观测性

2025年06月21日

简介（未完成）
耗时耗在哪？ ==> 全链路追踪
问答质量

简介（未完成）

与传统微服务应用所关注的黄金三指标（请求数，错误，耗时）类比，我们认为 AI 应用的黄金三指标可能是 Token，Error，Duration。

耗时主要关注的是模型推理延迟，也就是在推理过程中我们通常需要关注模型的首包延迟，即 TTFT(Time to first token)，这个指标反映了相应的速度，还有像 TPOT (Time Per Output Token) 反映生成的效率和流畅度。另外一个比较重要的指标就是吞吐率。吞吐率可以衡量我们这个模型本身，能够同时去支撑多少个推理请求。所以这几个指标是需要进行一些平衡的，三个指标不可能同时满足得特别好。
Token 可能是 AI 应用最重要的一个指标，所以每次请求会记录 Token 的消耗情况，甚至我们需要精确地区分 Input Token 和 Output Token 的消耗，因为大家知道模型的定价里面 Input Token 和 Output Token 是不一样的，我们在成本核算的时候，会将输入 Token 和输出 Token 分别进行统计。

耗时耗在哪？ ==> 全链路追踪

业务/应用层，还是推理引擎层？

问答质量

我们要解决模型回答得好不好，每次模型的升级和优化，都需要建立一个基线，并且确保模型的迭代满足这个基线，否则回答的质量会导致用户体验受损。为此，我们把模型的 input/output 全部都采集到日志平台中，接下来我们可以筛选出一批记录，通过数据加工，引用外部的裁判员模型，对当前这个模型回答的输入输出结果进行一个评估。