从 0 到推理引擎实战

把“大模型推理引擎”拆成一条真正能学下去的工程路线

这不是一份零散的资料清单,而是一套按阶段推进的学习站点。你会先看清全景,再逐章进入 Transformer 推理、GPU 与显存、调度与吞吐、量化与编译、再到 vLLMTensorRT-LLMSGLangllama.cpp 的实战落地。

4 四个阶段,覆盖完整学习闭环
8 八个章节,从概念一路到部署与压测
12+ 建议周期为 12 周以上,适合系统进阶
1 毕业目标:独立搭起基础推理服务并做分析
大模型推理引擎学习路线的工程化位图概览
阶段 1:理解一次推理请求到底发生了什么
阶段 2:补齐 GPU、显存、并行与缓存基础
阶段 3:看懂调度、吞吐与核心优化手段
阶段 4:把认知落到框架、压测与源码

四个阶段,先建立路径感,再进入细节

首页只负责告诉你全局怎么走,章节页则升级成教材页:讲清原理、工程判断、任务、自测和进一步深挖资料。

01
2 周 建立认知

先搞清楚推理引擎到底在解决什么问题

理解推理链路、请求生命周期、prefill / decode、token 与上下文。

  • 认识推理引擎与核心术语
  • 看懂一次请求的推理流程
  • 能画出基础链路图
02
3 周 系统基础

补齐 GPU、显存、并行和缓存这些工程基础

把“为什么慢、为什么爆显存、为什么吞吐起不来”说清楚。

  • GPU / CUDA / 显存带宽
  • KV Cache 与请求状态
  • 采样与输出阶段成本
03
3 周 引擎核心

理解主流推理引擎怎样做调度、分页和吞吐优化

从系统视角看 batching、continuous batching、paged attention 和量化。

  • 请求调度与排队
  • 吞吐、延迟与显存取舍
  • 量化与编译的角色
04
4 周 落地进阶

把认知落到具体框架、部署压测、监控和源码阅读

这一阶段开始真正把站点内容转成可运行、可观测、可对比的工程实践。

  • 主流引擎路线差异
  • 部署与压测基线
  • 毕业项目与源码入口

学习路线图:从“概念知道”走到“系统能分析、服务能落地”

下面这条路径把四个阶段串起来。每个阶段都有明确的目标、章节入口和阶段产出,避免只看热点概念却没有工程主线。

阶段一:建立认知

第 1-2 章,约 2 周

  • 理解推理引擎的职责
  • 弄清楚 prefill / decode

阶段二:补齐系统基础

第 3-4 章,约 3 周

  • 掌握 GPU、显存与算子基础
  • 看懂缓存、采样和请求状态

阶段三:进入引擎核心

第 5-6 章,约 3 周

  • 理解调度、吞吐与内存策略
  • 知道量化、编译和通信优化在做什么

阶段四:落地与进阶

第 7-8 章,约 4 周

  • 比较主流引擎路线
  • 完成部署、压测和毕业项目

8 章总览图墙:先压缩扫完整条路线,再进入具体章节

这一层不展开教材正文,只把每一章真正承担的任务、核心图景和阶段产出压缩成一张首页图墙。先扫一遍,你会更容易判断自己该从哪里切入。

阶段一 第 1-2 章

看懂术语、请求链路和推理生命周期。

阶段二 第 3-4 章

补齐 GPU、显存、缓存和状态流转基础。

阶段三 第 5-6 章

进入调度、分页、量化和优化决策视角。

阶段四 第 7-8 章

完成框架选型、服务落地、压测与监控闭环。

第 1 章 阶段一 入门地图

认识推理引擎与学习地图

先建立系统边界,分清模型、推理框架、服务层和引擎层分别在做什么。

术语 边界 路线
时长 2 天
难度 L1 入门
先修
本章产出 能画出整套学习地图,并解释推理引擎在整条服务链里的职责。
第 2 章 阶段一 请求链路

Transformer 推理与一次请求到底发生了什么

把“模型在回答”拆成真实执行链路,理解 prompt、token、prefill 和 decode 怎样串起来。

输入 Prefill Decode
时长 2-3 天
难度 L1 入门
先修
本章产出 能讲清一次请求从收到 prompt 到连续生成 token 的执行过程。
第 3 章 阶段二 硬件基础

GPU / CUDA / 显存 / 并行基础

开始形成硬件直觉,不再把显存爆炸和吞吐不足简单归结成“卡不够强”。

算力 带宽 显存
时长 3-4 天
难度 L2 基础
先修
本章产出 能把常见性能症状映射回计算、内存和并行粒度约束。
第 6 章 阶段三 优化决策

性能优化:量化、算子、编译、内存与通信

常见优化名词很多,但真正重要的是知道它们各自对应哪类瓶颈,以及实施前后的代价。

量化 算子 编译
时长 4-5 天
难度 L3 进阶
先修
本章产出 能给常见性能问题匹配更合理的优化路径,而不是盲目叠加技巧。
第 8 章 阶段四 工程闭环

部署、压测、监控、源码阅读与毕业项目

把知识压成真正的服务闭环,完成部署、打基线、看指标、读源码,再沉淀成项目输出。

部署 压测 监控 源码
时长 5-6 天
难度 L4 落地
先修
本章产出 拿到一套可复现的服务基线、定位方法和毕业项目骨架。

八个章节详情页:从首页总览进入教材正文和动手任务

总览图墙负责一眼扫清全景,这一层则进入每章的教材正文。章节页统一采用“导读、目标、前置知识、正文主线、关键表格、任务、产出、自测、资料、误区、下一章衔接”的结构,方便一路往前推。

第 1 章 阶段一

认识推理引擎与学习地图

先把名词和地图看清楚:什么是推理引擎、服务框架、推理请求和吞吐目标,并建立后续整条路线的判断边界。

  • 核心术语
  • 学习地图
  • 阶段目标
第 2 章 阶段一

Transformer 推理与一次请求到底发生了什么

把“模型会回答”拆成真实的推理阶段,理解 token、上下文、prefill、decode 和请求执行过程。

  • prefill / decode
  • 上下文窗口
  • 请求生命周期
第 3 章 阶段二

GPU / CUDA / 显存 / 并行基础

理解硬件执行模型和显存约束,不再把推理性能问题归结成“机器不够强”,开始形成硬件直觉。

  • 线程块与算子
  • 显存与带宽
  • 并行粒度
第 4 章 阶段二

推理引擎核心链路:prefill、decode、sampling、KV Cache

真正看懂引擎内部各段在干什么,为什么 KV Cache 会成为性能与显存焦点,以及请求状态怎样流转。

  • 缓存布局
  • 采样阶段
  • 请求状态机
第 5 章 阶段三

调度与吞吐:batching、continuous batching、paged attention

掌握主流推理引擎提升吞吐的关键手段,开始用系统视角看调度、连续批处理和缓存分页设计。

  • 调度队列
  • 连续批处理
  • 分页缓存
第 6 章 阶段三

性能优化:量化、算子、编译、内存与通信

把常见优化名词放回具体问题上下文,理解它们分别在解决什么瓶颈,以及为何不能脱离场景堆优化。

  • 量化路线
  • 编译与内核
  • 通信成本
第 7 章 阶段四

主流推理引擎实战:vLLM、TensorRT-LLM、SGLang、llama.cpp

开始用框架对比和实操把抽象概念落地,理解它们各自更擅长的工程场景和选型边界。

  • 框架定位
  • 推理接口
  • 部署差异
第 8 章 阶段四

部署、压测、监控、源码阅读与毕业项目

最后把所有内容收成一次完整工程闭环:搭服务、做压测、看指标、读关键源码,并沉淀毕业项目。

  • 指标与基线
  • 监控与定位
  • 毕业项目

怎样使用这个站点,才能真的把路线走完

如果你是第一次系统学推理引擎,建议按下面的节奏推进,不要一上来就只盯着框架 API。

先看首页,再决定进入哪一章

  1. 先用首页判断自己当前在哪个阶段。
  2. 没有系统基础时,不要直接跳到性能优化。
  3. 每进入一章前先看本章目标与前置知识。

每一章都要留下可复用产出

  • 链路图、对比表、压测记录、关键命令笔记。
  • 不要只看文章和仓库 README。
  • 学完后能向别人解释,才算真正形成结构。

把“概念”和“实战”绑在一起

  • 每章至少完成一个动手任务。
  • 框架实战前先搞清楚系统瓶颈在哪里。
  • 阶段四的毕业项目要真正跑出数据和结论。