鐵之狂傲
標題:
Steamroller最佳化之道:借鑒GPU設計的自動化工具
[列印本頁]
作者:
CANCERS
時間:
12-9-17 13:07
標題:
Steamroller最佳化之道:借鑒GPU設計的自動化工具
AMD對第三代推土機核心Steamroller寄予厚望,研發工程師對其性能也相當自信,
豪言性能會提升45%
,因為Steamroller架構是重新設計的,它才是推土機架構的本來面目。
工程師的話不能不信,也不可全信,Steamroller架構與Bulldozer推土機的設計思路還是一樣的,AMD更多的是架構最佳化,對目前反映出的缺陷做了針對性改進,
有關CPU架構改進在之前的文章中已經講的很詳細了
,而
Softepedia
連發三文解析Steamroller架構在工藝製造上是如何最佳化的。
在此之前先看一點背景知識。隨着CPU功能的增多,設計也越來越複雜,晶體管規模也急速攀升,推土機的晶體管規模為12億(早先說是20億),上一代的六核Tuban才9億,而Intel的SNB是9.95億,IVB則提升到14億。
但是CPU的晶體管規模目前已經追不上GPU了,AMD的Tahiti核心有43億個晶體管,NVIDIA的GK104也有35億個,幾乎是同代CPU晶體管規模的三倍,當然功耗和核心面積也高於CPU。
這二者的區別不僅在於工藝和架構的不同,還有一種差異則是“最佳化”不同。
晶圓廠一般會提供一套特殊的軟體自動化工具給客戶,後者可以借用這套軟體來最佳化晶片設計,重新排列部分功能單元,由於這種工具是專門針對目前工藝設計的,因此它的效率比較高,可以大幅減少晶片的核心面積並降低功耗。
這種設計被稱之為High Density cell library(高密度單元程式庫),AMD在HotChips會議上講解Steamroller架構時專門提到了使用工具最佳化晶片設計的重要性。
12-9-17 13:09 上傳
下載附件 (點選圖片檢視原圖)
(356.13 KB)
在這張對比圖上,AMD演示了FPU單元使用人工及自動化工具最佳化設計的不同,後者可以減少30%的核心面積,功耗也會隨之降低15-30%。不過自動化工具的缺點就是頻率不容易提高,這也是為什麼在GPU設計中它使用的更多的原因,因為GPU的頻率普遍在1GHz左右,最大也就是2GHz,而主流CPU的頻率大都在3GHz以上。
綜合之後AMD認為自動化工具對CPU來說也是利大於弊,Steamroller的核心面積藉此可減少30%,另外32nm工藝升級到28nm還會額外帶來30%的核心面積及功耗降低,如此一來Steamroller處理器的功耗、核心面積都得到了平衡,甚至可與20nm工藝相媲美。
第一代推土機在GF 32nm SOI工藝下勉強達到了3.6-4.2GHz,但是代價高昂,功耗和發熱比競爭對手的產品要高得多,第二代Piledriver核心重點最佳化了功耗和發熱,旗艦型號FX-8350的頻率進一步提高到4-4.2GHz,變相提高了CPU性能,不過功耗和發熱還缺少實測結果。
Steamroller應用了GPU設計中的高度自動化工具來最佳化電路,預計功耗和發熱會有明顯降低,再加上新製程工藝的優勢,處理器的核心面積乃至功耗甚至會有改頭換面的感覺,再加上CPU架構的改進,這或許就是AMD如此自信的主要原因吧,現在我們只希望這一切都是真的。
歡迎光臨 鐵之狂傲 (https://gamez.com.tw/)