鐵之狂傲

 取回密碼
 註冊
搜尋

切換到指定樓層
1#
  Intel的Xeon Phi前兩天在SC 12會議上正式發布了,商品化的產品主要是60核心的5110P和57核心(預測)的3100系列,前者將在明年1月份出貨,後者還要等到明年年中。   其實在這兩款產品之前,Intel的Xeon Phi產品中就已有SE10P和SE10X兩款,而且這兩款產品目前已經用在了TACC德克薩斯高級計算中的Stampede超級電腦上,因為它們還是測試樣品,所以Intel給出的價格極具誘惑力,每塊只有400美元,當然實際產品售價在2000美元以上。
  Anandtech網站又對TACC所用的Xeon Phi做了一番解析,來瞭解一下Xeon Phi到底有什麼秘密吧。

  Xeon Phi品牌其實早在6月份就宣佈過了,不過直到現在才有詳細的訊息。從核心圖上看,它的MIC內核總計有50億個晶體管,甚至比安騰9500系列還多,幸好有了22nm 3D晶體管,不然製造這樣大規模的晶片可不容易。
  每個核心最多有62個內核,512位SIMD陣列,每個核心都是一個X86架構的順序指令體系的微內核,來源於原始的Pentium,看起來跟Atom有些相似。
  雖然是順序指令體系,不過每個內核可以執行4個同步執行緒,而Nehalem之後的Intel處理器大都也支援SMT多執行緒,不過他們支援多執行緒只是為了更好地利用執行資源。
  在Xeon Phi中,4執行緒更可能是一種隱藏(hide)記憶體延遲的方法,最好的情況下並行處理也只有2條執行緒而已。

  每個內核都是一個64位X86核心,不過只有2%的邏輯電路(包括L2快取在內)是用於X86的,Xeon Phi的SIMD不支援MMX、SSE及AVX指令,它有自己的矢量格式。
  所有內核都是通過一個雙向環形匯流排連接的,類似於Intel在Xeon E7及SNB-EP處理器中用過的那樣。

  Xeon Phi有8條記憶體通道,位寬512-bit,支援8GB GDDR5記憶體,並整合了PCI-E控製器。
Xeon Phi卡規格
  Xeon Phi使用PCI-E介面,看起來像是一塊顯示卡,不過該架構最早就是針對GPU應用的,所以以顯示卡的形式出現也沒什麼意外的。而且跟其他加速卡一樣,Xeon Phi也沒有顯示輸出介面,它純粹就是一個計算卡。
  Xeon Phi運行的是開源的、經過修改的Linux系統,每個Xeon Phi卡都有自己的IP地址,但是它不能獨立運行,還需要搭配CPU使用,也就是說正常版的Xeon依然是作為主處理器,Xeon Phi的作用跟AMD/NVIDIA的GPU加速卡類似,不能獨立使用。
  下面是Intel的Xeon Phi卡的規格。

  TACC的Stampede超級電腦使用的Xeon Phi是特定的版本,有61個內核,頻率也略微提高到1.1GHz。正常商用的的5110P是60個內核,頻率也低了50MHz,實際頻率為1.053GHz,同樣搭配8GB GDDR5 ECC記憶體。5110P名稱中的P尾碼意味着它是被動散熱的,主要依賴主機的散熱系統。
  另外,5110P 2699美元的價格不算便宜,不過相比NVIDIA Tesla K20的3199美元報價還算適當,其主要優勢在於超高的頻寬,51bit記憶體位寬、5GHz頻率下總頻寬達到320GB/s,高於K20及K20X。
  明年年中才會發布的3110系列售價低於2000美元,搭配6GB GDDR5記憶體,5GHz頻率,位寬也縮減到384bit,不過核心頻率可能會略有提高,可提供超過1TFLOPS的雙精度浮點性能。
  另外,Xeon Phi的PCI-E雖然是2.0標準,但是頻率為7GHz,要高於PCI-E 2.0正常的5GHz,因為Intel發現升級到PCI-E 3.0標準會導致代價過高,所以才有這個折衷方案。
TACC中心的Stampede電腦
  位於TACC中心的Stampede電腦是世界上第一款使用Xeon Phi架構的超級電腦,它由6400個戴爾PowerEdge C8220X及C8220伺服器機櫃組成,每個伺服器包含2個8核Xeon E5處理器,32GB記憶體以及一塊Xeon Phi加速卡。


  每間房子裡有並排放置的2個C8000 4U機櫃,每個機櫃內有8個PowerEdge伺服器。

  這些伺服器通過FDR無限連接技術連接成為一個超級電腦。
  先期組裝的Xeon E5部分可以通過2PteaFlips(千萬億次)的能力,使用Xeon Phi之後還可以提供額外的8PetaFlops計算能力。
  不過Xeon Phi還不能完全取代GPU,因為它沒有紋理單元,所以這台電腦的遠程虛擬化功能是由128個NVIDIA Tesla K20加速卡完成的。
  Stampede的其他部分還有272TB容量的記憶體,14PB的儲存容量。整個電腦及冷卻系統總計需要600萬瓦的電力供應。
Xeon Phi的編程特性 
  Xeon Phi的一大吸引力就是它可以直接運行為Xeon編寫的多執行緒代碼。為了更好地發揮Xeon Phi的性能,開發者可以使用Intel C或者Fortan的編譯器來運行代碼。這樣一來,Intel宣稱在Xeon Phi上運行典型的應用性能都可以提高2-2.5倍,部分應用提升幅度還會更多。

  不過Xeon Phi也不是沒有問題,相比較而言,目前廉價的四核解決方案更有效率。在Intel E5架構之前,AMD憑藉廉價的四核處理器在HPC市場已經獲得不小的成功。對比這樣的廉價四核解決方案與Intel主推的CPU+Xeon Phi方案的每瓦性能、每美元性能就會很有趣了。
  重點是Xeon Phi編程花費的時間要比NVIDIA的Tesla K20要少得多,雖然後者的CUDA環境已經日趨成熟,不過還是能聽到不少廠商抱怨CUDA下的debug太麻煩。而對Intel來說,良好的編譯器支援、通用的高性能軟體是Xeon Phi的一大優勢。
  總之,Xeon Phi更具彈性,因為它本質上還是一個通用的Xeon內核,而GPU加速方案主要用於極限的並行環境,因為後者通常都有數百個流處理器。
  目前還不能對Xeon Phi作出最終判斷,因為Anandtech目前還沒有拿到實卡測試,他們對Xeon Phi的第一印象就是它可以做為一個低成本、易使用的HPC解決方案。
 
轉播0 分享0 收藏0

回覆 使用道具 檢舉

你需要登入後才可以回覆 登入 | 註冊

存檔|手機版|聯絡我們|新聞提供|鐵之狂傲

GMT+8, 25-2-7 23:46 , Processed in 0.023046 second(s), 17 queries , Gzip On.

回頂部