大模型推理tips
简介 基础 模型的计算过程 格式 框架抽象 通用流程的抽象 请求调度 模型文件加载 资源管理的抽象 以kvcache为核心的分布式架构 控制面 路由与负载均衡 自动扩速容 各种并行 简介 万字...
简介 基础 模型的计算过程 格式 框架抽象 通用流程的抽象 请求调度 模型文件加载 资源管理的抽象 以kvcache为核心的分布式架构 控制面 路由与负载均衡 自动扩速容 各种并行 简介 万字...
简介 扯扯闲篇 什么是Test/Inference-time Scaling Law test-time Compute 各种 Search against Verifiers 修改提议分布Modifying Proposal Distribution 如何增强大语言模型的推理能力/推理LLM ...
简介 分阶段 简单使用LLM 是不够的 workflow与agent agent 1.0 ==>agent 2.0 原理 认知框架Cognitive Architecture stop token 其它 代码解释器 大佬 ...
简介 计算量 数据准备 继续预训练 数据实验:同源小模型是大模型的实验场 大模型背后的无数小模型 Tokenizer 模型结构 模型参数 GPT-2养成记 GPT-2 model使用 微调GPT-2 model 简介 LLama3 405B...
简介 embedding 渊源 bert embedding 向量匹配的几个问题 微调emebedding 微调样本构建 训练过程 微调脚本 FlagEmbedding 微调 准备微调样本 微调emebedding 模型使用 模型评估(未完成) ...
前言(未完成) 数据检索的挑战 —— 从结构化时代到非结构化时代。传统数据库存储的是标量数据,标量原来是物理上的概念,指只有大小而没有方向的物理量,在数据库这里用标量来表示一类数据类型,例如数字型、字符型、日期型、布尔型,针对该类数据类型可以使用精确匹配的方式进行查询,例如传统关系数据库的 SQL,该检索方式称为标量查询。全文检索是指在非结构化的文本数据中基于特定单词或者文本在全文范围内进...
简介 FastAPI 依赖注入 fastapi_sqlalchemy fastapi_pagination 后台任务 lifespan SQLAlchemy 简介 PS: fastapi 与Uvicorn 的关系有点像 springmvc 与tomcat的关系? FastAPI 三万字长文让...
简介 多轮对话怎么转化为模型接受的input和用于计算loss的label 预训练 指令微调 微调实践 数据准备 模型选择 训练参数选择 效果评估 特定场景微调 rag Agent / function_call 长文...
简介 铺垫 历史 事件循环/EventLoop Future Task EventLoop工作原理 Asyncio 库同步原语 结构化并发 协程上下文 应用场景 其它 简介 从 yield 到 await:Python 协程的进化史 未细读。 在异步程序中,用户编写的程序通过asyncio.run 调...
简介 简介 缘起 实现 核心组件 驱动逻辑 持久化 ddd这么多年一直曲高和寡的一部分原因是,在代码层面缺少框架支持,用户从0到1使用ddd从概念理解上和代码实现上都成本非常大,给人带来的困惑、给团队带来的争论相比便利来说一点都不少,这点相对“声明式API + 控制器模型”之于kubebuilder/contro...