Chapter 06 · 性能优化：量化、算子、编译、内存与通信

Guide

章节导读

“优化”这个词听起来很宽，但对推理系统来说，优化从来不是无条件堆叠的。每一种优化都在针对某种瓶颈，也都带来自己的代价。真正有价值的学习方式，是把优化手段放回具体瓶颈里看。

这一章的核心问题

量化、算子、编译、内存布局、通信优化分别在解决什么问题？

你要形成的直觉

先判断瓶颈，再选择手段，而不是盲目追逐所有热门优化名词。

学完之后的收益

你会开始具备“为什么这个框架强调某种优化”的解释能力。

Goals

本章目标

知道量化在显存与带宽压力下最常扮演什么角色。
知道算子优化和图编译主要在提升什么层面的执行效率。
理解内存布局和通信优化为什么在多卡推理中极其重要。
学会建立“瓶颈 → 优化手段 → 代价”的判断框架。

Prerequisites

前置知识

必须知道

显存容量、带宽、调度和缓存管理都会限制推理表现。
多卡部署会带来同步和通信代价。
工作负载不同，最敏感的瓶颈也可能不同。

建议知道

量化意味着更低精度的数据表示。
算子是模型执行图中可被单独优化的热点计算单元。
编译和运行时并不是同一层事情，但会互相配合。

阅读提醒

本章的关键词很多，但不要追求一次背全。
每个优化都先问“它在解决哪种资源瓶颈”。
再问“它引入了哪些额外代价”。

Topics

正文主线

1. 优化不是堆名词，而是瓶颈定位

真正的优化顺序永远是：先定位瓶颈，再选手段。如果你还没搞清楚系统慢是因为显存吃紧、带宽不够、算子低效还是多卡通信开销，就开始同时试量化、编译和换框架，最后通常只会得到一些不可解释的数字。

所以这一章最重要的收获，不是学会“所有优化方法”，而是学会问对问题：为什么现在的系统慢，最先限制我的到底是什么。

2. 量化更像在换一种资源使用方式

量化的直接作用，是降低权重和 / 或激活的表示精度，从而减少显存占用和数据搬运成本。对推理系统来说，这通常意味着同样的硬件能放下更大的模型、更高的并发或更长的上下文。

但量化不是免费午餐。不同量化方案对精度影响不同，对内核支持要求不同，对不同模型架构的适配难度也不同。也就是说，量化是“用更多工程复杂度和潜在精度风险，换取资源效率”的典型手段。

3. 算子优化与图编译在解决不同层面的浪费

算子优化更偏热点局部：例如矩阵乘、attention、归一化这些高频高成本操作怎样跑得更快。图编译则更偏整体执行路径：怎样减少不必要的中间张量、冗余调度和数据搬运，让整条执行图更顺。

二者经常协同出现。你可以把它们理解成：一个在抠“单步效率”，一个在抠“全局组织效率”。后面你看不同框架的能力差异时，会发现有的框架更擅长把热点算子榨干，有的更强调整体图执行和平台耦合优化。

4. 内存布局优化，常常决定你能不能真正发挥硬件

有时系统并不是算不动，而是数据放得不好、取得不顺，导致 GPU 大量时间花在等待数据而不是计算。KV Cache 的分页、张量布局的重排、减少不必要的 copy，都是这条线上的优化思路。

这也是为什么很多优秀的推理系统论文，标题写的是 attention 或 serving，但正文里大篇幅都在谈内存管理和访问模式。因为真正限制性能的往往不是“有没有算力”，而是“算力拿不拿得到数据”。

5. 多卡场景里，通信优化和并行策略同样重要

当模型跨卡运行时，很多优化都要重新审视。单卡下有效的算子优化，到了多卡场景可能被通信延迟抵消；单卡下省显存的方案，到了多卡场景又可能加重同步压力。所以多卡推理不是“单卡优化的简单叠加”，而是另一层系统设计。

这也是为什么后面看 TensorRT-LLM 这类更贴近特定硬件平台的路线时，你会发现它们对并行和通信的叙述格外重。

6. 如何建立自己的优化决策框架

一个实用的框架是：先看资源约束，再看负载特征，再看部署目标。比如显存先不够，就优先看量化和缓存管理；GPU 利用率不高但带宽紧张，就优先看算子和内存布局；多卡扩展不理想，就先看并行切分和通信，而不是先换 sampling 参数。

7. 优化顺序通常是“先便宜、后昂贵，先确定、后冒险”

不是所有优化都值得第一时间上。很多时候，先通过更稳妥的手段拿到一轮确定收益，比如调好 batch 组织、排查明显的内存浪费、做基础量化，再决定是否进入更复杂的自定义内核和深度平台绑定，会更符合工程节奏。

这个顺序的价值在于：你更容易解释结果，也更容易控制回归风险。否则一口气叠很多优化，最后即使数字变好，也不清楚到底是哪一项在起作用。

Decision

工程判断

瓶颈没定位前，不做优化堆叠

如果你不知道系统主要受限于容量、带宽、算子还是通信，同时开很多优化只会制造噪声。

先用指标把瓶颈压缩到一个主方向。
一次只改一到两类关键变量。
让每轮实验都能解释得清楚。

先算收益，再接受代价

每个优化都在拿一些东西换另一些东西，常见的是用复杂度、兼容性或精度去换性能与容量。

量化要问精度和内核支持。
编译优化要问平台耦合和调试成本。
多卡优化要问通信是否会吞掉收益。

优化要为目标服务，而不是为技术栈服务

低延迟在线接口、高吞吐离线任务、本地部署工具，最值得做的优化顺序都不一样。

先定业务目标和负载形态。
再选更匹配的优化组合。
别为了“都很先进”把系统变得不可维护。

Examples

场景拆解

显存紧张容量动作

长上下文服务一提并发就顶到显存上限

这类问题优先考虑的是容量路线：量化、缓存管理、上下文裁剪，而不是先去写更激进的热点算子优化。

先确认权重和 KV Cache 各占多少。
再看量化是否能显著释放空间。
最后再决定是否需要更重的并行切分。

多卡变慢通信动作

单卡表现不错，扩到多卡后反而没有明显提升

这种情况通常不是“算子不够快”，而是切分与通信开始主导总成本。继续堆单卡优化可能帮助有限。

先看并行策略和同步点。
再看通信链路和拓扑。
这类系统的关键优化方向已经变了。

Diagram

图解实验室

优化不是工具清单，而是一张判断图。先找主瓶颈，再走对应路线。

优化决策图

从上往下看：先定位瓶颈，再选路径，最后回到实验验证，而不是并列堆很多优化名词。

第一步：先定位主瓶颈 确认当前更像容量、带宽、算子效率，还是多卡通信问题。

↓

容量受限 优先想量化、缓存管理、切分和上下文裁剪。

带宽 / IO 受限 优先想内存布局、减少 copy、IO-aware 路线。

热点算子低效 优先想算子优化、核函数融合、编译路径。

多卡通信受限 优先想并行策略、同步点和拓扑相关优化。

实验闭环 每做一轮优化，都要重新回到指标验证，而不是假设收益一定成立。

采指标 → 改一类变量 → 对比结果 → 继续定位

Key Points

关键表格与结论

瓶颈类型	优先考虑的优化方向	通常收益	主要代价
显存容量压力	量化、切分、缓存管理	能放下更大模型或更高并发	精度、兼容性、实现复杂度
带宽 / IO 压力	内存布局优化、IO-aware 算子、减少 copy	更高有效吞吐	实现复杂、平台相关性强
热点算子低效	算子优化、核函数融合、编译优化	单步执行更快	调试和维护成本高
多卡扩展差	并行策略调整、通信优化、拓扑感知	扩展效率更好	系统复杂度显著上升

结论 1

没有“万能优化”。任何优化结论都必须带着负载、平台和目标一起说。

结论 2

真正成熟的优化思路，通常从资源观和系统症状出发，而不是从热门词开始。

Tasks

动手任务

任务 1：建立“瓶颈 → 优化方向”映射表

最低完成标准是：至少能把显存、带宽、算子效率、通信四类瓶颈分别映射到一类优先优化手段。

任务 2：为一个高并发长上下文服务选三条优先优化路线

最低完成标准是：你的理由里必须出现“为什么不是其他方向优先”。

任务 3：写一段“为什么不能把所有优化都开满”的说明

最低完成标准是：要提到精度、兼容性、调试复杂度和平台耦合至少三个关键词。

任务 4：挑一个框架，判断它更强调哪类优化

最低完成标准是：不是只写“它很快”，而是写出它更像在押注哪些瓶颈假设。

Milestones

阶段产出

产出 1

一张瓶颈与优化方向映射表。

产出 2

一份具体场景的优先优化清单。

产出 3

你自己的优化决策原则摘要。

Self Check

自测问题

1. 量化最先在缓解哪类压力？为什么它不一定是所有场景的第一优先级？

如果你能同时说出收益和代价，说明理解完整。
2. 算子优化和图编译分别更像在抠什么层面的浪费？

一个偏局部热点，一个偏整体执行组织。
3. 为什么多卡场景会让通信优化和并行策略变得关键？

如果你能把单卡逻辑和多卡逻辑区别开来，说明已经跨过这一层门槛。
4. 你能否举出一个“优化看起来有效、但未必适合当前场景”的例子？

这能检验你是否已经建立起“先看上下文”的判断方式。

Resources

常见误区

误区 1：优化手段越多越好

没有瓶颈定位的优化叠加，很容易让系统更复杂、结果却更难解释。

误区 2：把量化只理解成“省显存”的按钮

它确实常用于省显存，但也可能改变内核路径、精度表现和维护成本。

误区 3：觉得多卡问题只是“加个并行参数”

实际上它牵涉通信、同步和拓扑，是另一层系统设计。

到这里，你已经具备了看框架时最需要的那套判断工具。下一章会正式用统一视角比较 vLLM、TensorRT-LLM、SGLang 和 llama.cpp，不再停留在“谁更火”的层面。