【CPU】 Xeon Phi前路如何，探秘TACC的Stampede電腦

[複製連結] 檢視: 1007|回覆: 0

CANCERS

名望的勇者

電梯直達

1^#

發表於 12-11-22 13:06:25 |只看該作者 |降序瀏覽大字中字小字正體化简体化

　　Intel的Xeon Phi前兩天在SC 12會議上正式發布了，商品化的產品主要是60核心的5110P和57核心(預測)的3100系列，前者將在明年1月份出貨，後者還要等到明年年中。　　其實在這兩款產品之前，Intel的Xeon Phi產品中就已有SE10P和SE10X兩款，而且這兩款產品目前已經用在了TACC德克薩斯高級計算中的Stampede超級電腦上，因為它們還是測試樣品，所以Intel給出的價格極具誘惑力，每塊只有400美元，當然實際產品售價在2000美元以上。
　　Anandtech網站又對TACC所用的Xeon Phi做了一番解析，來瞭解一下Xeon Phi到底有什麼秘密吧。

　　Xeon Phi品牌其實早在6月份就宣佈過了，不過直到現在才有詳細的訊息。從核心圖上看，它的MIC內核總計有50億個晶體管，甚至比安騰9500系列還多，幸好有了22nm 3D晶體管，不然製造這樣大規模的晶片可不容易。
　　每個核心最多有62個內核，512位SIMD陣列，每個核心都是一個X86架構的順序指令體系的微內核，來源於原始的Pentium，看起來跟Atom有些相似。
　　雖然是順序指令體系，不過每個內核可以執行4個同步執行緒，而Nehalem之後的Intel處理器大都也支援SMT多執行緒，不過他們支援多執行緒只是為了更好地利用執行資源。
　　在Xeon Phi中，4執行緒更可能是一種隱藏(hide)記憶體延遲的方法，最好的情況下並行處理也只有2條執行緒而已。

　　每個內核都是一個64位X86核心，不過只有2%的邏輯電路(包括L2快取在內)是用於X86的，Xeon Phi的SIMD不支援MMX、SSE及AVX指令，它有自己的矢量格式。
　　所有內核都是通過一個雙向環形匯流排連接的，類似於Intel在Xeon E7及SNB-EP處理器中用過的那樣。

　　Xeon Phi有8條記憶體通道，位寬512-bit，支援8GB GDDR5記憶體，並整合了PCI-E控製器。
Xeon Phi卡規格
　　Xeon Phi使用PCI-E介面，看起來像是一塊顯示卡，不過該架構最早就是針對GPU應用的，所以以顯示卡的形式出現也沒什麼意外的。而且跟其他加速卡一樣，Xeon Phi也沒有顯示輸出介面，它純粹就是一個計算卡。
　　Xeon Phi運行的是開源的、經過修改的Linux系統，每個Xeon Phi卡都有自己的IP地址，但是它不能獨立運行，還需要搭配CPU使用，也就是說正常版的Xeon依然是作為主處理器，Xeon Phi的作用跟AMD/NVIDIA的GPU加速卡類似，不能獨立使用。
　　下面是Intel的Xeon Phi卡的規格。

　　TACC的Stampede超級電腦使用的Xeon Phi是特定的版本，有61個內核，頻率也略微提高到1.1GHz。正常商用的的5110P是60個內核，頻率也低了50MHz，實際頻率為1.053GHz，同樣搭配8GB GDDR5 ECC記憶體。5110P名稱中的P尾碼意味着它是被動散熱的，主要依賴主機的散熱系統。
　　另外，5110P 2699美元的價格不算便宜，不過相比NVIDIA Tesla K20的3199美元報價還算適當，其主要優勢在於超高的頻寬，51bit記憶體位寬、5GHz頻率下總頻寬達到320GB/s，高於K20及K20X。
　　明年年中才會發布的3110系列售價低於2000美元，搭配6GB GDDR5記憶體，5GHz頻率，位寬也縮減到384bit，不過核心頻率可能會略有提高，可提供超過1TFLOPS的雙精度浮點性能。
　　另外，Xeon Phi的PCI-E雖然是2.0標準，但是頻率為7GHz，要高於PCI-E 2.0正常的5GHz，因為Intel發現升級到PCI-E 3.0標準會導致代價過高，所以才有這個折衷方案。
TACC中心的Stampede電腦
　　位於TACC中心的Stampede電腦是世界上第一款使用Xeon Phi架構的超級電腦，它由6400個戴爾PowerEdge C8220X及C8220伺服器機櫃組成，每個伺服器包含2個8核Xeon E5處理器，32GB記憶體以及一塊Xeon Phi加速卡。

　　每間房子裡有並排放置的2個C8000 4U機櫃，每個機櫃內有8個PowerEdge伺服器。

　　這些伺服器通過FDR無限連接技術連接成為一個超級電腦。
　　先期組裝的Xeon E5部分可以通過2PteaFlips(千萬億次)的能力，使用Xeon Phi之後還可以提供額外的8PetaFlops計算能力。
　　不過Xeon Phi還不能完全取代GPU，因為它沒有紋理單元，所以這台電腦的遠程虛擬化功能是由128個NVIDIA Tesla K20加速卡完成的。
　　Stampede的其他部分還有272TB容量的記憶體，14PB的儲存容量。整個電腦及冷卻系統總計需要600萬瓦的電力供應。
Xeon Phi的編程特性　
　　Xeon Phi的一大吸引力就是它可以直接運行為Xeon編寫的多執行緒代碼。為了更好地發揮Xeon Phi的性能，開發者可以使用Intel C或者Fortan的編譯器來運行代碼。這樣一來，Intel宣稱在Xeon Phi上運行典型的應用性能都可以提高2-2.5倍，部分應用提升幅度還會更多。

　　不過Xeon Phi也不是沒有問題，相比較而言，目前廉價的四核解決方案更有效率。在Intel E5架構之前，AMD憑藉廉價的四核處理器在HPC市場已經獲得不小的成功。對比這樣的廉價四核解決方案與Intel主推的CPU+Xeon Phi方案的每瓦性能、每美元性能就會很有趣了。
　　重點是Xeon Phi編程花費的時間要比NVIDIA的Tesla K20要少得多，雖然後者的CUDA環境已經日趨成熟，不過還是能聽到不少廠商抱怨CUDA下的debug太麻煩。而對Intel來說，良好的編譯器支援、通用的高性能軟體是Xeon Phi的一大優勢。
　　總之，Xeon Phi更具彈性，因為它本質上還是一個通用的Xeon內核，而GPU加速方案主要用於極限的並行環境，因為後者通常都有數百個流處理器。
　　目前還不能對Xeon Phi作出最終判斷，因為Anandtech目前還沒有拿到實卡測試，他們對Xeon Phi的第一印象就是它可以做為一個低成本、易使用的HPC解決方案。

轉播0 分享0 收藏0

回覆使用道具檢舉

最後更新返回清單

帳號		自動登入	取回密碼
密碼			註冊