从 0 到推理引擎实战

把“大模型推理引擎”拆成一条真正能学下去的工程路线

这不是一份零散的资料清单，而是一套按阶段推进的学习站点。你会先看清全景，再逐章进入 Transformer 推理、GPU 与显存、调度与吞吐、量化与编译、再到 vLLM、TensorRT-LLM、SGLang 和 llama.cpp 的实战落地。

查看完整路线从第一章开始

4 四个阶段，覆盖完整学习闭环

8 八个章节，从概念一路到部署与压测

12+ 建议周期为 12 周以上，适合系统进阶

1 毕业目标：独立搭起基础推理服务并做分析

大模型推理引擎学习路线的工程化位图概览 — 阶段 1：理解一次推理请求到底发生了什么

阶段 2：补齐 GPU、显存、并行与缓存基础

阶段 3：看懂调度、吞吐与核心优化手段

阶段 4：把认知落到框架、压测与源码

Stage Overview

四个阶段，先建立路径感，再进入细节

首页只负责告诉你全局怎么走，章节页则升级成教材页：讲清原理、工程判断、任务、自测和进一步深挖资料。

2 周建立认知

先搞清楚推理引擎到底在解决什么问题

理解推理链路、请求生命周期、prefill / decode、token 与上下文。

认识推理引擎与核心术语
看懂一次请求的推理流程
能画出基础链路图

3 周系统基础

补齐 GPU、显存、并行和缓存这些工程基础

把“为什么慢、为什么爆显存、为什么吞吐起不来”说清楚。

GPU / CUDA / 显存带宽
KV Cache 与请求状态
采样与输出阶段成本

3 周引擎核心

理解主流推理引擎怎样做调度、分页和吞吐优化

从系统视角看 batching、continuous batching、paged attention 和量化。

请求调度与排队
吞吐、延迟与显存取舍
量化与编译的角色

4 周落地进阶

把认知落到具体框架、部署压测、监控和源码阅读

这一阶段开始真正把站点内容转成可运行、可观测、可对比的工程实践。

主流引擎路线差异
部署与压测基线
毕业项目与源码入口

Roadmap

学习路线图：从“概念知道”走到“系统能分析、服务能落地”

下面这条路径把四个阶段串起来。每个阶段都有明确的目标、章节入口和阶段产出，避免只看热点概念却没有工程主线。

阶段一：建立认知

第 1-2 章，约 2 周

理解推理引擎的职责
弄清楚 prefill / decode

阶段二：补齐系统基础

第 3-4 章，约 3 周

掌握 GPU、显存与算子基础
看懂缓存、采样和请求状态

阶段三：进入引擎核心

第 5-6 章，约 3 周

理解调度、吞吐与内存策略
知道量化、编译和通信优化在做什么

阶段四：落地与进阶

第 7-8 章，约 4 周

比较主流引擎路线
完成部署、压测和毕业项目

Atlas

8 章总览图墙：先压缩扫完整条路线，再进入具体章节

这一层不展开教材正文，只把每一章真正承担的任务、核心图景和阶段产出压缩成一张首页图墙。先扫一遍，你会更容易判断自己该从哪里切入。

阶段一 第 1-2 章

看懂术语、请求链路和推理生命周期。

阶段二 第 3-4 章

补齐 GPU、显存、缓存和状态流转基础。

阶段三 第 5-6 章

进入调度、分页、量化和优化决策视角。

阶段四 第 7-8 章

完成框架选型、服务落地、压测与监控闭环。

第 1 章阶段一入门地图

认识推理引擎与学习地图

先建立系统边界，分清模型、推理框架、服务层和引擎层分别在做什么。

术语边界路线

时长 2 天

难度 L1 入门

先修

可直接开始

本章产出 能画出整套学习地图，并解释推理引擎在整条服务链里的职责。

先立全局坐标进入本章

第 2 章阶段一请求链路

Transformer 推理与一次请求到底发生了什么

把“模型在回答”拆成真实执行链路，理解 prompt、token、prefill 和 decode 怎样串起来。

输入 Prefill Decode

时长 2-3 天

难度 L1 入门

先修

第 1 章

本章产出 能讲清一次请求从收到 prompt 到连续生成 token 的执行过程。

看懂请求生命周期进入本章

第 3 章阶段二硬件基础

GPU / CUDA / 显存 / 并行基础

开始形成硬件直觉，不再把显存爆炸和吞吐不足简单归结成“卡不够强”。

算力带宽显存

时长 3-4 天

难度 L2 基础

先修

第 2 章

本章产出 能把常见性能症状映射回计算、内存和并行粒度约束。

建立硬件判断进入本章

第 4 章阶段二核心链路

推理引擎核心链路：prefill、decode、sampling、KV Cache

真正进入引擎内部，看懂缓存布局、状态流转和采样阶段为什么会影响时延与显存。

Prefill KV Cache Sampling

时长 3-4 天

难度 L2 基础

先修

第 2 章第 3 章

本章产出 能解释请求状态为什么会在计算、缓存和采样之间来回切换。

进入引擎内部状态进入本章

第 5 章阶段三调度吞吐

调度与吞吐：batching、continuous batching、paged attention

把吞吐优化放回调度问题本身，理解请求怎样排队、复用和分页，为什么这会直接影响服务效率。

队列批处理分页

时长 4 天

难度 L3 进阶

先修

第 4 章

本章产出 能从调度视角解释吞吐、时延和显存利用率之间的取舍。

掌握吞吐主线进入本章

第 6 章阶段三优化决策

性能优化：量化、算子、编译、内存与通信

常见优化名词很多，但真正重要的是知道它们各自对应哪类瓶颈，以及实施前后的代价。

量化算子编译

时长 4-5 天

难度 L3 进阶

先修

第 5 章

本章产出 能给常见性能问题匹配更合理的优化路径，而不是盲目叠加技巧。

建立优化判断进入本章

第 7 章阶段四框架选型

主流推理引擎实战：vLLM、TensorRT-LLM、SGLang、llama.cpp

进入框架比较和选型阶段，判断每条路线的长处、约束和更适合承接的工程场景。

vLLM TRT SG CPU

时长 4-5 天

难度 L3 进阶

先修

第 5 章第 6 章

本章产出 能基于场景、硬件和目标指标，给出更有根据的框架选型判断。

开始做路线比较进入本章

第 8 章阶段四工程闭环

部署、压测、监控、源码阅读与毕业项目

把知识压成真正的服务闭环，完成部署、打基线、看指标、读源码，再沉淀成项目输出。

部署压测监控源码

时长 5-6 天

难度 L4 落地

先修

第 7 章

本章产出 拿到一套可复现的服务基线、定位方法和毕业项目骨架。

完成工程闭环进入本章

Chapters

八个章节详情页：从首页总览进入教材正文和动手任务

总览图墙负责一眼扫清全景，这一层则进入每章的教材正文。章节页统一采用“导读、目标、前置知识、正文主线、关键表格、任务、产出、自测、资料、误区、下一章衔接”的结构，方便一路往前推。

第 1 章阶段一

认识推理引擎与学习地图

先把名词和地图看清楚：什么是推理引擎、服务框架、推理请求和吞吐目标，并建立后续整条路线的判断边界。

核心术语
学习地图
阶段目标

开始学习 01

第 2 章阶段一

Transformer 推理与一次请求到底发生了什么

把“模型会回答”拆成真实的推理阶段，理解 token、上下文、prefill、decode 和请求执行过程。

prefill / decode
上下文窗口
请求生命周期

继续学习 02

第 3 章阶段二

GPU / CUDA / 显存 / 并行基础

理解硬件执行模型和显存约束，不再把推理性能问题归结成“机器不够强”，开始形成硬件直觉。

线程块与算子
显存与带宽
并行粒度

深入硬件基础 03

第 4 章阶段二

推理引擎核心链路：prefill、decode、sampling、KV Cache

真正看懂引擎内部各段在干什么，为什么 KV Cache 会成为性能与显存焦点，以及请求状态怎样流转。

缓存布局
采样阶段
请求状态机

进入核心链路 04

第 5 章阶段三

调度与吞吐：batching、continuous batching、paged attention

掌握主流推理引擎提升吞吐的关键手段，开始用系统视角看调度、连续批处理和缓存分页设计。

调度队列
连续批处理
分页缓存

理解调度策略 05

第 6 章阶段三

性能优化：量化、算子、编译、内存与通信

把常见优化名词放回具体问题上下文，理解它们分别在解决什么瓶颈，以及为何不能脱离场景堆优化。

量化路线
编译与内核
通信成本

进入优化视角 06

第 7 章阶段四

主流推理引擎实战：vLLM、TensorRT-LLM、SGLang、llama.cpp

开始用框架对比和实操把抽象概念落地，理解它们各自更擅长的工程场景和选型边界。

框架定位
推理接口
部署差异

做框架比较 07

第 8 章阶段四

部署、压测、监控、源码阅读与毕业项目

最后把所有内容收成一次完整工程闭环：搭服务、做压测、看指标、读关键源码，并沉淀毕业项目。

指标与基线
监控与定位
毕业项目

完成闭环 08

How To Use

怎样使用这个站点，才能真的把路线走完

如果你是第一次系统学推理引擎，建议按下面的节奏推进，不要一上来就只盯着框架 API。

先看首页，再决定进入哪一章

先用首页判断自己当前在哪个阶段。
没有系统基础时，不要直接跳到性能优化。
每进入一章前先看本章目标与前置知识。

每一章都要留下可复用产出

链路图、对比表、压测记录、关键命令笔记。
不要只看文章和仓库 README。
学完后能向别人解释，才算真正形成结构。

把“概念”和“实战”绑在一起

每章至少完成一个动手任务。
框架实战前先搞清楚系统瓶颈在哪里。
阶段四的毕业项目要真正跑出数据和结论。