cpu流水线(处理器流水线技术)

今天我们来说一个硬核话题。这篇文章大约需要15分钟。仔细看完，会有收获。我们走吧！

通过本文，您将了解以下内容:

stackoverflow的有趣问题CPU流水线机制和内部数据流转CPU流水线的三大冒险CPU分支预测大揭秘有趣的问题

前几天钓鱼的时候，在stackoverflow里发现了一个有趣的问题:

https://stack overflow . com/questions/11227809/为什么处理已排序的数组比处理未排序的数组快

提问者用C++写了一个数组求和函数，数组排序后求和与无序求和的计算性能相差6倍，很奇怪。

让我们看一下代码:

# include & lt算法& gt# include & ltctime & gt# include & ltiostream & gtint main(){//Generate data const unsigned array size = 32768；int data[array size]；for(无符号c = 0；c & ltarraySize++ c)data[c]= STD::rand()% 256；// !！！有了这个，下一个循环运行得更快。std::sort(data，data+array size)；//测试clock _ t start = clock()；long long sum = 0；for(无符号I = 0；我& lt100000;++i) { for(无符号c = 0；c & ltarraySize++c) { //主循环if(data[c]& gt；= 128)sum+= data[c]；} } double elapsed time = static _ cast & lt；double & gt(clock()-start)/CLOCKS _ PER _ SEC；STD::cout & lt；& ltelapsedTime & lt& lt'\ n & # 39；STD::cout & lt；& lt"sum = & # 34& lt& ltsum & lt& lt'\ n & # 39；代码比较简单，先做一个大数组，然后数组的元素在256以内取模，所有元素落在0-256以内，然后在循环中用条件判断求和。

为了防止出现单个错误，提问者做了10w个循环，发现运行时间相差很大:

无序求和累计耗时 11.54秒排序求和累计耗时 1.93秒

是的，按理说加入std:sort()会增加时间消耗，但性能还是那么优秀。真是奇怪！

提问者用Java又做了一遍。现象和C++不完全一样，但几乎完全一样。

到底是怎么回事？在这里看书的笔友一定是个技术娴熟的人。来吧，让我们找出答案。

洗车房的故事

前阵子开着我的捷达去洗车，车还挺多的，一辆接一辆。

我发现洗车的流程是这样的:喷水、起泡、刷洗、擦拭、吹干。

cpu流水线(处理器流水线技术)插图

车辆在外面排队，后面是奥迪A6L，宝马X5，奔驰C200L，捷达vs5。

这样一个流程完成后，车辆移动到下一个流程，另一个车辆添加到当前流程。

我以为是一辆车进去完成所有流程再出来，下一辆车去完成所有流程，以此类推。没想到洗车是流水线作业。

为什么是流水线？增加洗车次数，也就是吞吐量，单位时间多赚点硫胺素！

如果你完成了所有的流程，然后得到下一个，那么在某个时刻，五个流程中只有一个在做，其他四个流程都在等待。工人们已经开始捕鱼了，还没赚到钱，所以顾客还有很长的等待时间。

生活中有很多智慧。看到这里，我不禁要问，这和我面前的数组求和有什么关系？别担心，这真的很重要。

CPU的内部的那些事儿

我们先从宏观的角度来看一下CPU的内部结构:

cpu流水线(处理器流水线技术)插图(1)

cpu流水线(处理器流水线技术)插图(2)

从这两幅图中，我们可以得到以下信息:

CPU内部的核心组件有各类寄存器、控制单元CU、逻辑运算单元ALU、高速缓存CPU和外部交互的交通大动脉就是三种总线：地址总线、数据总线、控制总线I/O设备、RAM通过三大总线和CPU实现功能交互

程序被编译器处理成机器代码执行，程序会被翻译成一系列指令。为了简化问题，我们选择5级流水线CPU来说明问题:

cpu流水线(处理器流水线技术)插图(3)

取指令IF 取指令（Instruction Fetch，IF）阶段是将一条指令从主存中取到指令寄存器的过程。指令译码ID 取出指令后，计算机立即进入指令译码（Instruction Decode，ID）阶段。在指令译码阶段，指令译码器按照预定的指令格式，对取回的指令进行拆分和解释，识别区分出不同的指令类别以及各种获取操作数的方法。指令执行EX 在取指令和指令译码阶段之后，接着进入执行指令（Execute，EX）阶段。此阶段的任务是完成指令所规定的各种操作，具体实现指令的功能。为此，CPU的不同部分被连接起来，以执行所需的操作。访存取数阶段MEM 根据指令需要，有可能要访问主存读取操作数，这样就进入了访存取数（Memory，MEM）阶段，此阶段的任务是：根据指令地址码，得到操作数在主存中的地址，并从主存中读取该操作数用于运算。结果回写WB 作为最后一个阶段，结果写回（Writeback，WB）阶段把执行指令阶段的运行结果数据写回到某种存储形式。

上面的IF、ID、EX、MEM、WB是CPU的五段流水线，这个流程和洗车的流水线很像:

cpu流水线(处理器流水线技术)插图(4)