鐵之狂傲

標題: Steamroller最佳化之道：借鑒GPU設計的自動化工具 [列印本頁]

作者: CANCERS 時間: 12-9-17 13:07
標題: Steamroller最佳化之道：借鑒GPU設計的自動化工具
　　AMD對第三代推土機核心Steamroller寄予厚望，研發工程師對其性能也相當自信，豪言性能會提升45%，因為Steamroller架構是重新設計的，它才是推土機架構的本來面目。
　　工程師的話不能不信，也不可全信，Steamroller架構與Bulldozer推土機的設計思路還是一樣的，AMD更多的是架構最佳化，對目前反映出的缺陷做了針對性改進，有關CPU架構改進在之前的文章中已經講的很詳細了，而Softepedia連發三文解析Steamroller架構在工藝製造上是如何最佳化的。
　　在此之前先看一點背景知識。隨着CPU功能的增多，設計也越來越複雜，晶體管規模也急速攀升，推土機的晶體管規模為12億(早先說是20億)，上一代的六核Tuban才9億，而Intel的SNB是9.95億，IVB則提升到14億。
　　但是CPU的晶體管規模目前已經追不上GPU了，AMD的Tahiti核心有43億個晶體管，NVIDIA的GK104也有35億個，幾乎是同代CPU晶體管規模的三倍，當然功耗和核心面積也高於CPU。
　　這二者的區別不僅在於工藝和架構的不同，還有一種差異則是“最佳化”不同。
　　晶圓廠一般會提供一套特殊的軟體自動化工具給客戶，後者可以借用這套軟體來最佳化晶片設計，重新排列部分功能單元，由於這種工具是專門針對目前工藝設計的，因此它的效率比較高，可以大幅減少晶片的核心面積並降低功耗。
　　這種設計被稱之為High Density cell library(高密度單元程式庫)，AMD在HotChips會議上講解Steamroller架構時專門提到了使用工具最佳化晶片設計的重要性。

Screen%20Shot%202012-08-28%20at%204.38.31%20PM_575px.png

　　在這張對比圖上，AMD演示了FPU單元使用人工及自動化工具最佳化設計的不同，後者可以減少30%的核心面積，功耗也會隨之降低15-30%。不過自動化工具的缺點就是頻率不容易提高，這也是為什麼在GPU設計中它使用的更多的原因，因為GPU的頻率普遍在1GHz左右，最大也就是2GHz，而主流CPU的頻率大都在3GHz以上。
　　綜合之後AMD認為自動化工具對CPU來說也是利大於弊，Steamroller的核心面積藉此可減少30%,另外32nm工藝升級到28nm還會額外帶來30%的核心面積及功耗降低，如此一來Steamroller處理器的功耗、核心面積都得到了平衡，甚至可與20nm工藝相媲美。
　　第一代推土機在GF 32nm SOI工藝下勉強達到了3.6-4.2GHz，但是代價高昂，功耗和發熱比競爭對手的產品要高得多，第二代Piledriver核心重點最佳化了功耗和發熱，旗艦型號FX-8350的頻率進一步提高到4-4.2GHz，變相提高了CPU性能，不過功耗和發熱還缺少實測結果。
　　Steamroller應用了GPU設計中的高度自動化工具來最佳化電路，預計功耗和發熱會有明顯降低，再加上新製程工藝的優勢，處理器的核心面積乃至功耗甚至會有改頭換面的感覺，再加上CPU架構的改進，這或許就是AMD如此自信的主要原因吧，現在我們只希望這一切都是真的。

歡迎光臨鐵之狂傲 (https://gamez.com.tw/)