简介(未完成)
Agent评估采用三层金字塔模型,按重要性和实施优先级划分:
- 第一层:核心能力,规划、工具使用、推理、记忆
- 第二层:应用效果 ,任务完成、输出质量、用户满意度
- 第三层:生产就绪度,成本、延迟、安全、稳定性
核心能力评估(第一层)
规划与推理能力
Agent能否将复杂任务分解并逐步执行
- 任务完成进度 = 已完成步骤/理想步骤数
- 正确选择工具比例 = 正确调用/总调用
- 遇错误后调整能力 = 成功恢复次数/错误次数
工具使用能力
Agent能否正确调用和组合各种工具:L1: 单工具调用 → L2: 顺序调用 → L3: 并行调用 → L4: 动态发现
- 工具名称+参数正确性
- 优先使用API而非浏览器
- 工具组合效率:最少调用达成目标
记忆管理能力
Agent能否维护和利用长期记忆
- 准确检索,从历史中提取正确信息
- 在线学习,对话中新增学习
- 长程理解,跨多轮维持一致性
- 选择遗忘,过滤无关信息
自我反思与改进能力
Agent能否从反馈中学习并改进
- 初次尝试 → Agent执行任务(可能失败)
- 提供反馈 → 给出错误原因或改进建议
- 二次尝试 → Agent根据反馈重新执行
- 评估改进 → 计算Reflection Score
应用效果评估(第二层)
Agent是否达成业务目标
- 完全成功
- 部分成功
- 功能完成
- 完全失败
Agent输出内容的质量
- 准确性
- 相关性
- 完整性,是否覆盖所有要点,关键点检查清单
- 可用性,用户能否直接使用