6、 代码优化
- 作者
- Name
- 青玉白露
- Github
- @white0dew
- Modified on
- Reading time
- 18 分钟
阅读:.. 评论:..
6.1 代码优化的概述
代码优化是编译器设计中的一个核心环节,其目标是在保持程序语义不变的前提下,改进中间代码或目标代码,以生成更高效的等价程序。优化的重要性不言而喻:它能显著提升程序的执行效率,减少资源消耗,并充分利用现代硬件的特性。
6.1.1 优化的目标和意义
代码优化主要追求以下目标:
- 提高执行速度:通过减少指令数量、改善指令序列等方式,缩短程序的运行时间。
- 减少内存使用:优化内存分配和访问模式,降低程序的内存占用。
- 提升缓存利用率:改善数据局部性,增加缓存命中率。
- 降低能耗:特别是在嵌入式系统和移动设备中,优化可以显著减少能源消耗。
优化的意义不仅限于提升单个程序的性能,还包括:
- 充分发挥硬件潜力,提高系统整体效率。
- 允许开发者专注于高层次的算法设计和功能实现,将底层优化交给编译器。
- 随着编译器技术的进步,持续改善现有程序的性能,无需修改源代码。
6.1.2 优化的层次
优化可以在编译过程的不同阶段进行,每个层次都有其特定的优化技术和优势:
- 源代码级优化:
- 由程序员或源到源转换工具完成。
- 例如:循环重构、内联展开等。
- 优点:可以利用高级语言特性和领域知识。
- 缺点:可能降低代码可读性。
- 中间代码优化:
- 编译器的主要优化阶段。
- 例如:常量传播、死代码消除、公共子表达式消除等。
- 优点:独立于源语言和目标机器,可以应用更广泛的优化技术。
- 目标代码优化:
- 针对特定硬件架构的优化。
- 例如:指令调度、寄存器分配等。
- 优点:可以充分利用目标机器的特性。
- 缺点:优化效果依赖于特定硬件。
6.1.3 优化与正确性
在进行优化时,保持程序的语义不变是首要原则。这意味着:
- 优化不能改变程序的可观察行为。
- 对于所有可能的输入,优化后的程序应产生与原程序相同的输出。
- 需要考虑异常处理、并发性等因素。
为确保正确性,编译器通常采用以下策略:
- 保守优化:在无法确定优化安全性时,选择不优化。
- 别名分析:分析内存访问模式,避免非法的代码重排。
- 形式化验证:使用数学方法证明优化的正确性。
6.1.4 优化的度量
评估优化效果通常考虑以下指标:
- 执行时间:wall-clock时间或CPU周期数。
- 代码大小:可执行文件的大小。
- 内存使用:峰值内存占用和平均内存使用。
- 能耗:尤其在嵌入式系统和移动设备中重要。
优化策略的选择需要在这些指标之间进行权衡,具体取决于应用场景:
- 嵌入式系统可能更注重代码大小和能耗。
- 高性能计算可能更关注执行速度,甚至以增加代码大小为代价。
- 移动应用则需要平衡执行速度和电池寿命。
6.2 局部优化
局部优化是在基本块内进行的优化技术。基本块是一段顺序执行的代码,没有分支进入(除了入口)或分支出去(除了出口)。这些优化相对简单,但效果显著。
6.2.1 基本块的识别与分析
识别基本块是局部优化的第一步。基本块的边界由以下特征确定:
- 基本块的第一个指令是一个入口点(程序开始、跳转目标等)。
- 基本块的最后一个指令是一个分支或返回指令。
例如,考虑以下代码:
1: x = a + b 2: if (x > 0) { 3: y = x * 2 4: } else { 5: y = x - 1 6: } 7: z = y + c
这段代码可以分为三个基本块:
- 块1:行1-2
- 块2:行3
- 块3:行5
- 块4:行7
6.2.2 常量折叠和传播
常量折叠是在编译时计算常量表达式的过程。例如:
x = 5 + 3 * 4
可以优化为:
x = 17
常量传播则是将已知的常量值代入到后续使用中。例如:
x = 5 y = x + 3 z = y * 2
可以优化为:
x = 5 y = 8 z = 16
6.2.3 代数简化
代数简化利用代数规则来简化表达式。常见的简化规则包括:
x + 0 = x
x * 1 = x
x - x = 0
x * 2 = x + x
(可能更高效)x / 1 = x
例如:
y = x * 1 + 0
可以简化为:
y = x
6.2.4 强度削弱
强度削弱是用较低代价的操作替换高代价操作。常见的例子包括:
- 用移位操作替换乘除操作(当操作数是2的幂时):
x = y * 4 → x = y << 2 x = y / 8 → x = y >> 3
- 用加法替换乘法(在循环中累积乘法时):
for (i = 0; i < n; i++) { x = i * 5; // 使用x }
可以优化为:
x = 0; for (i = 0; i < n; i++) { // 使用x x = x + 5; }
6.2.5 公共子表达式消除
公共子表达式消除(CSE)识别重复计算的表达式,并用先前计算的结果替换后续计算。例如:
a = b + c d = b + c + e
可以优化为:
temp = b + c a = temp d = temp + e
这种优化在复杂表达式中特别有用,可以显著减少计算量。
6.2.6 死代码消除
死代码是指不会影响程序结果的代码。死代码消除会删除这些无用的计算。例如:
x = 10 y = 20 x = 30 z = y + 5 return z
可以优化为:
y = 20 z = y + 5 return z
这里,x = 10
和x = 30
的赋值都被删除了,因为x
的值没有被使用。
6.3 全局优化
全局优化在整个函数或程序范围内进行,跨越多个基本块。这些优化通常更复杂,但也能带来更显著的性能提升。
6.3.1 控制流图的构建与分析
控制流图(CFG)是全局优化的基础。CFG的节点是基本块,边表示可能的执行路径。构建CFG的步骤包括:
- 识别基本块
- 确定基本块之间的跳转关系
- 添加入口和出口节点
例如,对于以下代码:
1: if (x > 0) { 2: y = x * 2; 3: } else { 4: y = -x; 5: } 6: z = y + 1;
其CFG可能如下所示:
[Entry] -> [If (x > 0)] [If (x > 0)] -> [y = x * 2] [If (x > 0)] -> [y = -x] [y = x * 2] -> [z = y + 1] [y = -x] -> [z = y + 1] [z = y + 1] -> [Exit]
6.3.2 全局公共子表达式消除
全局CSE在整个函数范围内识别和消除重复计算。这需要考虑不同执行路径上的计算。例如:
if (condition) { a = x + y; // 使用a } else { b = x + y; // 使用b } c = x + y;
可以优化为:
temp = x + y; if (condition) { a = temp; // 使用a } else { b = temp; // 使用b } c = temp;
6.3.3 复制传播
复制传播是将变量的复制操作传播到其使用点。例如:
x = y ... // 代码不修改y z = x + 1
可以优化为:
x = y ... // 代码不修改y z = y + 1
这种优化可以消除不必要的复制操作,并为其他优化创造机会。
6.3.4 常量传播
全局常量传播在整个函数范围内追踪常量值。这可能导致条件分支的化简和死代码的产生。例如:
x = 5 if (x > 0) { y = x + 1 } else { y = x - 1 }
可以优化为:
x = 5 y = 6
6.3.5 死变量消除
死变量是指其值不再被使用的变量。死变量消除可以删除对这些变量的赋值操作。例如:
x = compute() y = x + 5 x = 10 return y
可以优化为:
x = compute() y = x + 5 return y
这里,x = 10
的赋值被删除,因为x
的新值没有被使用。
6.3.6 代码移动
代码移动试图将计算移动到执行频率较低的位置。最常见的例子是循环不变代码外提:
for (i = 0; i < n; i++) { x = a * b + c; y[i] = x + i; }
可以优化为:
x = a * b + c; for (i = 0; i < n; i++) { y[i] = x + i; }
这种优化减少了循环内的计算量,特别是对于大型循环,可以显著提高性能。
6.4 数据流分析
数据流分析是许多全局优化技术的基础。它分析程序中数据如何在不同点之间流动,为优化决策提供重要信息。
6.4.1 数据流分析的基本概念
数据流分析包括以下关键概念:
- 前向分析和后向分析:
- 前向分析:从程序入口向出口传播信息(如可用表达式分析)
- 后向分析:从程序出口向入口传播信息(如活跃变量分析)
- 数据流方程:描述如何在程序点之间传播信息的方程。
- 汇合点:多个控制流路径汇合的程序点。
- 格理论:提供数学基础,确保分析的收敛性。
6.4.2 到达定值分析
到达定值分析确定哪些赋值可能到达程序的每个点。这对于常量传播和死代码消除很有用。 例如,考虑以下代码:
1: x = 5 2: if (condition) { 3: x = 10 4: } 5: y = x
在第5行,x的到达定值包括第1行和第3行的赋值。
6.4.3 活跃变量分析
活跃变量分析确定在程序每个点上,哪些变量的值可能在后续被使用。这对于寄存器分配和死代码消除很重要。 例如:
1: x = 10 2: y = 20 3: z = x + y 4: return z
在第3行之后,x和y不再活跃,而z是活跃的。
6.4.4 可用表达式分析
可用表达式分析确定在程序的每个点上,哪些表达式已经被计算且其值仍然有效。这对于全局公共子表达式消除很有用。 例如:
1: a = x + y 2: b = x + y 3: x = 5 4: c = x + y
在这个例子中,表达式x + y
在第2行是可用的,因为它在第1行被计算过,且x和y的值没有改变。但在第4行,它不再可用,因为x的值在第3行被修改了。
6.4.5 迭代算法与固定点
数据流分析通常使用迭代算法来计算固定点解。这涉及反复应用数据流方程,直到结果不再变化。过程如下:
- 初始化所有程序点的数据流信息(通常为最保守的估计)。
- 重复遍历CFG,更新每个点的信息。
- 当所有点的信息都不再改变时,算法终止。
这种方法保证了在有限步骤内收敛到一个固定点,该固定点是数据流方程的最精确解。
6.5 循环优化
循环优化是非常重要的,因为程序中的大部分执行时间通常花在循环上。有效的循环优化可以显著提高程序性能。
6.5.1 循环结构的识别
识别循环结构是循环优化的第一步。这通常通过分析控制流图中的强连通分量来完成。常见的循环类型包括:
- 自然循环:只有一个入口点(循环头)的循环。
- 嵌套循环:循环内部包含其他循环。
- 多重入口循环:有多个入口点的循环。
6.5.2 循环不变代码外提
将循环中不变的计算移到循环之前,可以减少重复计算。例如:
for (i = 0; i < n; i++) { x = x + a * b; }
可以优化为:
temp = a * b; for (i = 0; i < n; i++) { x = x + temp; }
这种优化特别适用于包含复杂计算的循环。
6.5.3 循环展开
循环展开通过复制循环体来减少循环控制开销。例如:
for (i = 0; i < n; i++) { a[i] = b[i] + c[i]; }
可以优化为:
for (i = 0; i < n; i += 2) { a[i] = b[i] + c[i]; a[i+1] = b[i+1] + c[i+1]; }
循环展开可以提高指令级并行性,但可能增加代码大小。
6.5.4 循环融合与分裂
循环融合将多个循环合并为一个,以减少循环开销:
for (i = 0; i < n; i++) { a[i] = b[i] * 2; } for (i = 0; i < n; i++) { c[i] = a[i] + d[i]; }
可以融合为:
for (i = 0; i < n; i++) { a[i] = b[i] * 2; c[i] = a[i] + d[i]; }
循环分裂则相反,它将一个循环分成多个,以提高缓存局部性或并行性。
6.5.5 循环向量化
循环向量化利用现代处理器的SIMD(单指令多数据)能力,同时处理多个数据元素。例如:
for (i = 0; i < n; i++) { c[i] = a[i] + b[i]; }
可以向量化为(伪代码):
for (i = 0; i < n; i += 4) { c[i:i+3] = a[i:i+3] + b[i:i+3]; // 使用SIMD指令 }
这种优化可以显著提高数值计算和多媒体处理的性能。
6.5.6 循环并行化
循环并行化分析循环间的依赖关系,将适合的循环转换为可并行执行的形式。例如:
for (i = 0; i < n; i++) { result[i] = compute(data[i]); }
可以并行化为:
#pragma omp parallel for for (i = 0; i < n; i++) { result[i] = compute(data[i]); }
这种优化可以充分利用多核处理器的能力。
6.6 机器无关优化
机器无关优化是不依赖于特定硬件架构的优化技术。这些优化可以在中间代码级别进行,提高代码的整体质量。
6.6.1 函数内联
函数内联将被调用函数的代码直接插入到调用点,消除了函数调用的开销。例如:
int square(int x) { return x * x; } int main() { int result = square(5); return result; }
内联后可能变为:
int main() { int result = 5 * 5; return result; }
内联可以减少函数调用开销,但可能增加代码大小。
6.6.2 尾递归优化
尾递归优化将尾递归函数转换为迭代形式,避免了递归调用的栈开销。例如:
int factorial(int n, int acc = 1) { if (n == 0) return acc; return factorial(n - 1, n * acc); }
可以优化为:
int factorial(int n, int acc = 1) { while (n != 0) { acc = n * acc; n = n - 1; } return acc; }
这种优化可以显著减少栈使用,防止栈溢出。
6.6.3 过程间分析与优化
过程间分析考虑函数之间的相互影响,进行跨函数的优化。这包括:
- 全局变量分析
- 函数副作用分析
- 函数指针分析
- 过程间常量传播
这些分析可以支持更aggressive的优化,如死代码消除和函数内联。
6.6.4 部分求值
部分求值在编译时执行部分计算,减少运行时的计算量。例如:
int power(int base, int exp) { int result = 1; for (int i = 0; i < exp; i++) { result *= base; } return result; } int main() { int x = power(2, 10); // 使用x }
通过部分求值,power(2, 10)
可以在编译时计算,将main
函数优化为:
int main() { int x = 1024; // 使用x }
6.6.5 代码特化
代码特化为特定的输入或条件生成优化版本的代码。这在模板元编程和即时编译(JIT)中特别有用。例如,考虑一个通用的排序函数:
template<typename T> void sort(T* arr, int size, bool ascending) { // 通用排序算法 }
代码特化可能为特定类型和排序方向生成优化版本:
void sort_int_ascending(int* arr, int size) { // 针对int类型和升序优化的排序算法 }
这种优化可以显著提高性能,特别是对于频繁调用的函数。
6.7 优化的实现与框架
6.7.1 SSA形式及其在优化中的应用
静态单赋值(SSA)形式是一种中间表示,其中每个变量只被赋值一次。SSA简化了许多优化算法。在SSA形式中:
- 每个变量只有一个定义点。
- 使用φ(phi)函数在控制流汇合点合并多个版本的变量。
例如,以下代码:
x = 1 if (condition) { x = 2 } y = x + 1
在SSA形式中可能表示为:
x1 = 1 if (condition) { x2 = 2 } x3 = φ(x1, x2) y1 = x3 + 1
SSA形式使得许多优化算法(如常量传播、死代码消除)变得更简单和高效。
6.7.2 优化pass的设计与实现
优化通常被组织成一系列的pass,每个pass执行特定的优化。典型的优化pass包括:
- 数据流分析pass
- 转换pass(如常量传播、死代码消除)
- 清理pass(如简化控制流)
设计优化pass时需考虑:
- pass的依赖关系
- pass的执行顺序
- pass之间的信息传递
6.7.3 优化序列的调度
决定优化pass的执行顺序是一个复杂的问题,因为不同的优化可能相互影响。一些考虑因素包括:
- 某些优化可能创造其他优化的机会(如常量传播可能导致更多的死代码)
- 某些优化可能破坏其他优化的条件(如代码移动可能影响公共子表达式消除)
- 某些优化可能需要反复应用才能达到最佳效果
因此,现代编译器通常采用启发式方法或机器学习技术来决定优化序列。
6.7.4 编译时间与优化效果的权衡
更激进的优化可能带来更好的运行时性能,但也会增加编译时间。需要在两者之间找到平衡。常见的策略包括:
- 分级优化:提供不同级别的优化选项(如-O1, -O2, -O3)
- 基于profile的优化:只对程序的热点部分进行深度优化
- 增量编译:只重新优化发生变化的代码部分
- 并行优化:利用多核处理器并行执行优化pass
6.8 高级优化技术
6.8.1 基于profile的优化
使用运行时收集的profile信息来指导优化决策。这包括:
- 分支预测:优化频繁执行的代码路径
- 内联决策:基于调用频率决定是否内联函数
- 循环优化:针对热点循环应用更aggressive的优化
6.8.2 投机性优化
基于可能性很大但不能保证的假设进行优化,同时提供回滚机制。例如:
- 投机性内联:内联虚函数调用,同时保留原始调用作为后备
- 投机性循环展开:假设循环迭代次数较多进行展开,同时保留原始循环作为后备
6.8.3 自动并行化
自动识别程序中可并行执行的部分,并生成并行代码。这包括:
- 循环并行化
- 任务并行化
- 向量化
自动并行化需要复杂的依赖分析和同步机制。
6.8.4 缓存优化
调整数据布局和访问模式以提高缓存利用率。技术包括:
- 数据对齐
- 数据填充
- 循环分块(Loop tiling)
- 数组合并
6.8.5 内存层次结构感知优化
考虑现代计算机的复杂内存层次结构(寄存器、多级缓存、主内存、磁盘)进行优化。这包括:
- 寄存器分配
- 缓存感知算法
- 内存预取
- 数据局部性优化
6.9 优化的局限性与挑战
6.9.1 不可优化的情况
某些代码结构或语言特性可能限制优化的应用,例如:
- 复杂的指针别名关系
- 异常处理
- 动态调度(如虚函数调用)
- 外部函数调用
6.9.2 优化对调试的影响
激进的优化可能使源代码和生成的机器代码之间的对应关系变得复杂,影响调试。解决方案包括:
- 生成调试信息,映射优化后的代码到原始源代码
- 提供不同级别的优化选项
- 支持源级调试器和优化器之间的协作
6.9.3 优化的正确性验证
确保优化不改变程序的语义是一个持续的挑战。方法包括:
- 形式化验证
- 广泛的测试套件
- 运行时检查
- 编译器正确性证明
6.9.4 未来优化技术的发展方向
新兴的优化技术和研究方向包括:
- 机器学习辅助的编译器优化
- 针对新兴硬件架构(如量子计算机)的优化
- 跨语言和跨平台优化
- 自适应和动态优化技术
本章详细介绍了代码优化的各个方面,从基本的局部优化到复杂的全局和机器无关优化。这些技术共同构成了现代编译器的优化框架,为生成高效代码提供了强大的工具。随着硬件架构和编程范式的不断发展,代码优化技术也在不断演进,以应对新的问题。