大模型推理tips

简介基础模型的计算过程格式框架抽象通用流程的抽象请求调度模型文件加载资源管理的抽象以kvcache为核心的分布式架构控制面路由与负载均衡自动扩速容各种并行简介万字...

2024/09/28 架构

推理LLM梳理

简介扯扯闲篇什么是Test/Inference-time Scaling Law test-time Compute 各种 Search against Verifiers 修改提议分布Modifying Proposal Distribution 如何增强大语言模型的推理能力/推理LLM ...

2024/09/21 技术

Agent演进

简介分阶段简单使用LLM 是不够的 workflow与agent agent 1.0 ==>agent 2.0 原理认知框架Cognitive Architecture stop token 其它代码解释器大佬 ...

2024/09/13 技术

LLM预训练

简介计算量数据准备继续预训练数据实验：同源小模型是大模型的实验场大模型背后的无数小模型 Tokenizer 模型结构模型参数 GPT-2养成记 GPT-2 model使用微调GPT-2 model 简介 LLama3 405B...

2024/08/17 技术

RAG向量检索与微调

简介 embedding 渊源 bert embedding 向量匹配的几个问题微调emebedding 微调样本构建训练过程微调脚本 FlagEmbedding 微调准备微调样本微调emebedding 模型使用模型评估（未完成） ...

2024/08/14 架构

向量数据库的一些考量

前言（未完成）数据检索的挑战 —— 从结构化时代到非结构化时代。传统数据库存储的是标量数据，标量原来是物理上的概念，指只有大小而没有方向的物理量，在数据库这里用标量来表示一类数据类型，例如数字型、字符型、日期型、布尔型，针对该类数据类型可以使用精确匹配的方式进行查询，例如传统关系数据库的 SQL，该检索方式称为标量查询。全文检索是指在非结构化的文本数据中基于特定单词或者文本在全文范围内进...

2024/08/07 技术

fastapi+sqlalchemy进行项目开发

简介 FastAPI 依赖注入 fastapi_sqlalchemy fastapi_pagination 后台任务 lifespan SQLAlchemy 简介 PS： fastapi 与Uvicorn 的关系有点像 springmvc 与tomcat的关系？ FastAPI 三万字长文让...

2024/08/02 技术

LLM微调实践

简介多轮对话怎么转化为模型接受的input和用于计算loss的label 预训练指令微调微调实践数据准备模型选择训练参数选择效果评估特定场景微调 rag Agent / function_call 长文...

2024/07/28 技术

Python协程实现

简介铺垫历史事件循环/EventLoop Future Task EventLoop工作原理 Asyncio 库同步原语结构化并发协程上下文应用场景其它简介从 yield 到 await：Python 协程的进化史未细读。在异步程序中，用户编写的程序通过asyncio.run 调...

2024/07/19 技术

dddfirework源码分析

简介简介缘起实现核心组件驱动逻辑持久化 ddd这么多年一直曲高和寡的一部分原因是，在代码层面缺少框架支持，用户从0到1使用ddd从概念理解上和代码实现上都成本非常大，给人带来的困惑、给团队带来的争论相比便利来说一点都不少，这点相对“声明式API + 控制器模型”之于kubebuilder/contro...

2024/07/15 架构