李乾坤的博客

Agent评估

2025/11/04 2 分钟阅读

简介(未完成) 评估什么核心能力评估（第一层）应用效果评估（第二层）如何评估评估从代码检查升级为真实用户式验收。其它简介(未完成) Agent 的自主性带来了三个传统软件没有的问题：非确定性：同一 prompt 多次...

2025/10/01 3 分钟阅读

简介(未完成) Browser Use Chromium 遥控靠什么：CDP playwright computer use GUI Agent code sandbox ...

2025/07/21 4 分钟阅读

2025/07/20 2 分钟阅读

简介

2025/07/20 2 分钟阅读

简介 Agent不只是一个工具 AI 能力的边界 LLM带来的自主性给软件开发带来了什么好处呢与传统软件的差异 agentic局限把业务知识丝滑地融入到 Agent 有哪些简介比尔·盖茨：AI Agent将彻底改变人类生活方式尽管软件在过去几十年里取得了显著...

2025/07/19 2 分钟阅读

简介 Prompt的演进：从静态到动态自适应技术要点长上下文带来的问题 Agent自省之路-ACE/Agentic Context Engineering 上下文工程之工程实践领域 AI代码工程 lan...

2025/06/28 少于 1 分钟阅读

简介(未完成) 挑战评测流程与时俱进简介(未完成) 揭秘大模型评测：如何用“说明书”式方法实现业务场景下的精准评估大模型评测的目标是通过设计合理的测试任务和数据集来对大模型的能力进行全面、量化的评估。性能测试通过压测实现。基础模型的Benchmark(基准测...

2025/06/21 少于 1 分钟阅读

简介

2025/06/21 少于 1 分钟阅读

2025/06/12 1 分钟阅读

简介(未完成) RL赋能实践与文档解析 Query生成 tool-use rl 优化Planner 简介(未完成) 精心设计的奖励函数对于有效的强化学习训练至关重要，因为它提供了优化信号，引导策略朝着理想的行为发展。在...