微机原理与接口技术关于乱序执行技术为了提高指令流的执行效率,乱序执行核心监视很多条指令,然后在不损失数据完整性的前提下,采用能充分发挥多个处理部件并行工作的指令顺序来执行。这个指令顺序可能和原始程序的不一样。1) A=B+C2) P=A*23) Q=D-E1)和3)可配对同时执行6
微机原理与接口技术 / 6 关于乱序执行技术 为了提高指令流的执行效率,乱序执行核心监视很 多条指令,然后在不损失数据完整性的前提下,采用 能充分发挥多个处理部件并行工作的指令顺序来执行 。这个指令顺序可能和原始程序的不一样。 1)A=B+C 2)P=A*2 3)Q=D-E 1)和3)可配对同时执行
微机原理与接口技术2.2.2PentiumIⅢ处理器内部结构及工作原理动态分支预测器L1指令含Cache16KB.4路相联,32项TLP系统总线(分支目标缓冲器BTB)+↑预取译码控制1IFU3路并行x86指令译码器静态分支预测器微指令ROM译码器2译码器 0译码器1总线接微指令序列器口单元MISBIU整型浮点寄存器别名表分配器RAT结构寄存器文件133MHz+真+64 位保留站RS1GB/s41++存储数AGUAGUIEUFPU存储地加载地据单元移位SSEIEUSSEMMXVIVXL2址单元址单元Mul执行CacheDIV+单元L2存储重排缓冲器MOBCache12项存,16项取控制单元L1数据Cache,16KB,4路相联,72项TLB指令重排缓冲器ROB(40项7
微机原理与接口技术 / 7 2.2.2 Pentium III处理器内部结构及工作原理
微机原理与接口技术2.3NetBurst微结构的处理器2.3.1NetBurst微结构概述1.超级流水线技术衡量CPU的性能指标是CPU完成应用程序所需的总时间。其计算公式如下:CPU性能-CPU的主频XIPCIPC是每时钟执行的指令条数。要提高CPU性能,可采用提高CPU主频和提高IPC。要提高主频一减少每个流水级的执行周期一要减小每个流水级的任务量一将任务再分解一增加流水线深度8
微机原理与接口技术 / 8 2.3 NetBurst微结构的处理器 2.3.1 NetBurst微结构概述 1. 超级流水线技术 衡量CPU的性能指标是CPU完成应用程序所需的总 时间。其计算公式如下: CPU性能=CPU的主频×IPC IPC是每时钟执行的指令条数。 要提高CPU性能,可采用提高CPU主频和提高IPC。 要提高主频→减少每个流水级的执行周期→要减小每 个流水级的任务量→将任务再分解→增加流水线深度
微机原理与接口技术2.快速执行引擎NetBurst微结构中配置了一种时钟缓冲器电路,可以使该结构下2个执行简单指令的ALU和2个存储地址AGU运行在两倍的CPU核心频率下3.高级动态执行·一个高达126条指令的超大指令窗口,避免了处理器为了等待配对指令而出现暂时的停顿,也减少了因Cache没命中,到主存中获取数据而产生等待的次数。一个4KB的分支目标缓冲器BTB记录更多的过去分支的历史细节,再配以改进的分支预测算法,使分支预测失误率比PentiumⅢl下降了33%。9
微机原理与接口技术 / 9 2.快速执行引擎 NetBurst微结构中配置了一种时钟缓冲器电路,可 以使该结构下2个执行简单指令的ALU和2个存储地址 AGU运行在两倍的CPU核心频率下 3.高级动态执行 • 一个高达126条指令的超大指令窗口,避免了处理器 为了等待配对指令而出现暂时的停顿,也减少了因 Cache没命中,到主存中获取数据而产生等待的次 数。 • 一个4KB的分支目标缓冲器BTB记录更多的过去分 支的历史细节,再配以改进的分支预测算法,使分 支预测失误率比Pentium III下降了33%
微机原理与接口技术4.执行跟踪Cache(executiontraceCache)放弃L1指令Cache的设计,采用执行跟踪Cache,它在译码器的后面,按程序流顺序存放已经译码好的最多12.000条微指令,5.高速系统总线采用了一种“四倍速”技术一quadpumping,使得前端总线能很方便的工作再4倍于系统总线的频率上。6.高级传输Cache采用8路相联的片内L2Cache,与核心同频工作,与CPU核心的专用总线宽度为256位,是过去的4倍,这样主频为2.8GHz的Pentium4其数据带宽将为89.6GBpsO10
微机原理与接口技术 / 10 4. 执行跟踪Cache(execution trace Cache) 放弃L1 指令Cache的设计,采用执行跟踪Cache,它 在译码器的后面,按程序流顺序存放已经译码好的最 多12,000条微指令, 5. 高速系统总线 采用了一种 “四倍速”技术—quad pumping,使得 前端总线能很方便的工作再4倍于系统总线的频率上。 6. 高级传输Cache 采用8路相联的片内L2 Cache ,与核心同频工作,与 CPU核心的专用总线宽度为256位,是过去的4倍,这 样主频为2.8GHz的Pentium 4其数据带宽将为89.6GBps