先搞清楚推理引擎到底在解决什么问题
理解推理链路、请求生命周期、prefill / decode、token 与上下文。
- 认识推理引擎与核心术语
- 看懂一次请求的推理流程
- 能画出基础链路图
这不是一份零散的资料清单,而是一套按阶段推进的学习站点。你会先看清全景,再逐章进入
Transformer 推理、GPU 与显存、调度与吞吐、量化与编译、再到
vLLM、TensorRT-LLM、SGLang 和
llama.cpp 的实战落地。
首页只负责告诉你全局怎么走,章节页则升级成教材页:讲清原理、工程判断、任务、自测和进一步深挖资料。
理解推理链路、请求生命周期、prefill / decode、token 与上下文。
把“为什么慢、为什么爆显存、为什么吞吐起不来”说清楚。
从系统视角看 batching、continuous batching、paged attention 和量化。
这一阶段开始真正把站点内容转成可运行、可观测、可对比的工程实践。
下面这条路径把四个阶段串起来。每个阶段都有明确的目标、章节入口和阶段产出,避免只看热点概念却没有工程主线。
第 1-2 章,约 2 周
第 3-4 章,约 3 周
第 5-6 章,约 3 周
第 7-8 章,约 4 周
这一层不展开教材正文,只把每一章真正承担的任务、核心图景和阶段产出压缩成一张首页图墙。先扫一遍,你会更容易判断自己该从哪里切入。
看懂术语、请求链路和推理生命周期。
补齐 GPU、显存、缓存和状态流转基础。
进入调度、分页、量化和优化决策视角。
完成框架选型、服务落地、压测与监控闭环。
先建立系统边界,分清模型、推理框架、服务层和引擎层分别在做什么。
把“模型在回答”拆成真实执行链路,理解 prompt、token、prefill 和 decode 怎样串起来。
开始形成硬件直觉,不再把显存爆炸和吞吐不足简单归结成“卡不够强”。
真正进入引擎内部,看懂缓存布局、状态流转和采样阶段为什么会影响时延与显存。
把吞吐优化放回调度问题本身,理解请求怎样排队、复用和分页,为什么这会直接影响服务效率。
常见优化名词很多,但真正重要的是知道它们各自对应哪类瓶颈,以及实施前后的代价。
进入框架比较和选型阶段,判断每条路线的长处、约束和更适合承接的工程场景。
把知识压成真正的服务闭环,完成部署、打基线、看指标、读源码,再沉淀成项目输出。
总览图墙负责一眼扫清全景,这一层则进入每章的教材正文。章节页统一采用“导读、目标、前置知识、正文主线、关键表格、任务、产出、自测、资料、误区、下一章衔接”的结构,方便一路往前推。
先把名词和地图看清楚:什么是推理引擎、服务框架、推理请求和吞吐目标,并建立后续整条路线的判断边界。
把“模型会回答”拆成真实的推理阶段,理解 token、上下文、prefill、decode 和请求执行过程。
理解硬件执行模型和显存约束,不再把推理性能问题归结成“机器不够强”,开始形成硬件直觉。
真正看懂引擎内部各段在干什么,为什么 KV Cache 会成为性能与显存焦点,以及请求状态怎样流转。
掌握主流推理引擎提升吞吐的关键手段,开始用系统视角看调度、连续批处理和缓存分页设计。
把常见优化名词放回具体问题上下文,理解它们分别在解决什么瓶颈,以及为何不能脱离场景堆优化。
开始用框架对比和实操把抽象概念落地,理解它们各自更擅长的工程场景和选型边界。
最后把所有内容收成一次完整工程闭环:搭服务、做压测、看指标、读关键源码,并沉淀毕业项目。
如果你是第一次系统学推理引擎,建议按下面的节奏推进,不要一上来就只盯着框架 API。