![]() |
學(xué)校地址:湖南省 長(zhǎng)沙市 雨花區(qū) 車站南路紅花坡路口 |
![]() |
學(xué)校地址:湖南省 長(zhǎng)沙市 雨花區(qū) 車站南路紅花坡路口 |
下面我為大家介紹一下關(guān)于奔騰 4技術(shù)的核心以及技術(shù)改進(jìn):
深管線——處理器 重要的管線之一,分支預(yù)報(bào)和防御管線在Pentium 4中是20個(gè)進(jìn)程的深度,這整整是PIII的兩倍,P4還對(duì)每一個(gè)管線的復(fù)雜進(jìn)程進(jìn)行了簡(jiǎn)化。
改進(jìn)的分支預(yù)報(bào)單元——Intel 聲稱NetBurst 錯(cuò)誤預(yù)報(bào)削減了P6設(shè)計(jì)原預(yù)計(jì)性能的33%之多。P4處理器改進(jìn)了其精確度,并存儲(chǔ)更多的關(guān)于過(guò)去分支信息在一個(gè)更大的容量中,4K 分支目標(biāo)緩沖器是PIII的8倍,這對(duì)于分支預(yù)報(bào)提供了更好的算法。兩倍時(shí)鐘的運(yùn)算器——NetBurst 有一對(duì)簡(jiǎn)單的算術(shù)邏輯單元(ALUs),它用于處理特定的整數(shù)運(yùn)算。這些單元運(yùn)行速度是處理器的兩倍。例如,在1.5GHz Pentium 4處理器中,他的運(yùn)行速度是3GHz。兩倍時(shí)鐘速度是一個(gè)巧妙的設(shè)計(jì),深管線的P4 需要它來(lái)保持它的工控。
執(zhí)行軌跡追蹤緩沖——像PIII和Athlon這些同時(shí)代的x86處理器的譯碼x86指令更小,處理它們之前執(zhí)行bite-sized操作(Inter 稱之為微操作)。這允許x86處理器有更多RISC-like 設(shè)計(jì),但是譯碼的x86指令執(zhí)行要用時(shí)間。NetBurst 的執(zhí)行蹤跡緩存代替常規(guī)的L1指令緩存,它儲(chǔ)存了micro-ops 而不是x86指令。Intel 關(guān)于蹤跡緩存的準(zhǔn)確的大小不是很大,但是他們宣稱它可以存儲(chǔ)12,000micro-ops。
P4的NetBurst L1 數(shù)據(jù)緩存僅僅是奔騰III 的大小的一半, 僅 8K。遠(yuǎn)小于Athlon 的64K 數(shù)據(jù)緩沖。這個(gè)設(shè)計(jì)是因?yàn)楦^小的緩存有更低的傳輸延遲時(shí)間,所以Intel 選擇這個(gè)緩存的大小。如果Athlon 和PIII 數(shù)據(jù)緩存是3周期傳輸延遲時(shí)間,那么P4的L1數(shù)據(jù)緩存?zhèn)鬏斞舆t時(shí)間是2周期。這是P4保持深管線很好的儲(chǔ)存計(jì)劃的一部分。
P4的 L2 緩存是 256K, 和Athlon和PIII相仿, 但是它的發(fā)熱更少。P4的L2緩存接口是256比特帶寬,它在每時(shí)鐘周期上發(fā)送數(shù)據(jù)。而1.4GHz的奔騰4的帶寬是44.8GB/sec。幾乎是1GHZ的PIII L2緩沖的4倍帶寬。而Athlon它 L2 緩存仍然很慢,但是我看到 AMD 工程師宣稱 Athlon's L2 緩存沒有實(shí)際的帶寬限制。無(wú)論怎樣,P4的L2緩存仍然驚人。
100MHz的四芯導(dǎo)線泵的前端總線—— NetBurst 總線每一時(shí)鐘循環(huán)發(fā)送數(shù)據(jù)4次,因此大家總是談?wù)?400MHz 總線" 。但我們只將其作為一個(gè)100MHz時(shí)鐘頻率來(lái)談?wù)摚琍4拆分處理事務(wù)總線在400MHz可以以每秒有3.2GB 數(shù)據(jù)傳輸,或可以說(shuō)這是在100MHz下得到的。
SSE2 SIMD 擴(kuò)展名——一個(gè)計(jì)算低工控 好的方法是讓每指令執(zhí)行更多的工作。到P4設(shè)計(jì)結(jié)束為止,Intel 增加了一套括144條新建指令的SSE2指令集。像 早的SIMD 擴(kuò)展指令集,SSE2涉及了多重的數(shù)據(jù)目標(biāo)上立刻執(zhí)行一單個(gè)的指令(即 SIMD)。 重要的是SSE2能處理128位和兩倍精密浮點(diǎn)數(shù)學(xué)運(yùn)算。處理更精確浮點(diǎn)數(shù)的能力使SSE2成為加速多媒體程序、3D處理工程以及工作站類型任務(wù)的基礎(chǔ)配置。但重要的是軟件是否能適當(dāng)?shù)膬?yōu)化利用它。
相對(duì)簡(jiǎn)單的浮點(diǎn)處理器—— 奔騰 4的浮點(diǎn)運(yùn)算單元設(shè)計(jì)和奔騰 III不同,而是與Athlon 宿主浮點(diǎn)運(yùn)算器有些相似。P4的FPU 無(wú)法與Athlon同樣的執(zhí)行工作程序,但在一些情況下有更高的傳輸延遲時(shí)間。為SSE2優(yōu)化的程序?qū)⒛茉谠S多情形中繞過(guò)P4的FPU處理弱點(diǎn)。
通過(guò)這些對(duì)P4設(shè)計(jì)的分析可以看出,P4確實(shí)相當(dāng)?shù)膬?yōu)秀。P4的管道的深度,與它的less-than-stellar FPU 結(jié)合,將保持它的工控或clock-for-clock 性能。由于優(yōu)化的 SSE2, 多媒體應(yīng)用軟件在P4上運(yùn)行如飛。