Long-horizon Agent
简介(未完成) 2026年,模型的推理能力、tool calling 能力、长上下文处理能力都已经达到了一个临界点。Long-horizon Agent 不再是”酷炫的 demo”,而是真正能够产出价值的工具。 不变的:在正确的时机,以正确的格式,向 LLM 提供正确的信息。 变化的:构建 Long-horizon Agent 涉及很多微妙的工程细节(compaction 策略...
简介(未完成) 2026年,模型的推理能力、tool calling 能力、长上下文处理能力都已经达到了一个临界点。Long-horizon Agent 不再是”酷炫的 demo”,而是真正能够产出价值的工具。 不变的:在正确的时机,以正确的格式,向 LLM 提供正确的信息。 变化的:构建 Long-horizon Agent 涉及很多微妙的工程细节(compaction 策略...
简介 2025年12月18日,Anthropic 正式推出了 Agent Skills 的开放标准:https://docs.anthropic.com/agent-skills 智能体拥有智能和能力,但不一定具备有效处理实际工作的专业知识(通用知识很强,专项操作能力很弱)。这促使Claude创建了Agent Skills(Procedural Knowledge)。Skills是有组织...
简介 AI的发展正在经历从“信息检索”到“任务执行”的范式转移。由Manus启蒙、OpenClaw破圈,AI以智能体的方式,开始能够自主规划执行路径、自主调用工具,代替人类完成自动化任务。OpenClaw是一个 Local-First (本地优先, vs manus 这种Cloud-native产品) 的 AI Agent 运行时环境,旨在将大模型(LLM)的能力与用户的本地系统、工具链和...
简介 JavaScript 作为一门拥有悠久历史的脚本语言,几乎无处不在,而 TypeScript 作为其超集,它们之间最核心的区别在于 静态类型系统(意味着变量的类型在程序中的任何时候都不能改变)。 TypeScript 代码需要先编译成 JavaScript 才能在浏览器中运行。 基础知识 TypeScript 的设计哲学可以总结为一句话:在不改变 JavaScript 运行行为的...
简介(未完成) A2UI 从Agent视角看A2UI:智能体终于学会了用界面”说话” A2UI(Agent-to-User Interface,智能体到用户界面)是一个开放协议,旨在让 AI 智能体能够以安全、原生且高性能的方式驱动用户界面。简而言之:让远程AI智能体在不向客户端发送危险的可执行代码的情况下,生成复杂的交互式界面。它的工作流程如下: 用户与AI智能体应用交流 ...
简介(未整理) 模型从自然语言的分布中学习到了生成非结构化文本序列的能力;接下来神奇的是,模型从语言中也学到了推理和规划的能力。或者一部分是出于偶然,人类的自然语言中本就存在着如何拆解任务、执行任务的模式;又或者是模型训练者刻意构造数据,刻意强化了模型在这方面的能力。总之,模型一旦具备了规划、执行的能力,可以想象,只要配置合适的工具,模型下一步很快也会对物理世界产生影响。但不管是驱动数字世...
简介(未完成) 评估什么 核心能力评估(第一层) 应用效果评估(第二层) 如何评估 其它 简介(未完成) Agent评估采用三层金字塔模型,按重要性和实施优先级划分: 第一层:核心能力,规划、工具使用、推理、记忆 第二层:应用效果 ,任务完成、输出质量、用户满意度 第三层:生产就绪度,成本、延迟、安全、稳定性 评估什...
简介(未完成) Browser Use CDP computer use GUI Agent code sandbox agent与sandbox 其它 简介(未完成) xx-use 可以将一些老旧软件“api”化。 agent infra。 Browser ...
简介 简介 与llm-reasoning SFT不足 与sft 对比 rl 与sft 融合 RFT/Reinforcement Fine-Tuning rl与熵 SFT RFT 训练方式 对于给定Query,直接学习Demonstration(...
简介 简介 简介(未完成) 硬件演进 软件演进 模型训练的挑战 模型推理的挑战 软件栈 汇总 简介(未完成) 程序员必须了解的AI系统设计与挑战知识 硬件演进 ==> 软件演进 ==> 训练挑战 ==> 推理挑战。 硬件演进 从CPU为中心到GPU为中心。传统基础设施以 CPU 为核心,通过多线程和微服务构建分布式系统,处理高并...