李乾坤的博客

llm评测

简介(未完成) 挑战 评测流程 与时俱进 简介(未完成) 揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估 大模型评测的目标是通过设计合理的测试任务和数据集来对大模型的能力进行全面、量化的评估。 性能测试通过压测实现。 基础模型的Benchmark(基准测试) 业务效果方面的评测。在基础模型发布时,模型厂商提供的测试报告无法覆盖用户实际业务场景...

大模型可观测性

简介(未完成) 耗时耗在哪? ==> 全链路追踪 问答质量 简介(未完成) AI时代的可观测性跟以前不同了,也更重要了,因为LLM带来了非确定性的决策逻辑,系统的行为比以前更难以预测了。可观测性的侧重点不同了,但思路和原则并没有发生颠覆性的变化。以前的系统,复杂度集中体现在分布式服务的调用关系上;而在AI智能体开发中,复杂度来源于如何理解智能体内部的自主行为上,也包括多智...