新華三集團(簡稱新華三)是全球領先的新IT解決方案領導者, 致力於新IT解決方案和產品的研發、生產、諮詢、銷售及服務, 新華三擁有H3C品牌的全系列伺服器、存儲、網路、安全、超融合系統和IT管理系統等產品, 能夠提供大互聯、大安全、雲計算、大資料和IT諮詢服務在內的一站式、全方位IT解決方案。 同時, 新華三也是HPE品牌的伺服器、存儲和技術服務的中國獨家提供商。
日前, 我們收到了新華三(以後稱為H3C)送來的一台H3C UniServer R4700 G3伺服器, 它在1U機架內提供了雙路Intel Skylake-SP處理器以及多達24個DDR4-2666記憶體插槽, 可見, 與標準的2U雙路伺服器相比,
H3C UniServer R4700 G3的設計獲得了reddot award 2017 winner——紅點2017設計大獎, 它的整體設計非常有特色。
R4700 G3在緊湊的1U空間內提供了與傳統2U機架媲美的計算/記憶體性能, 它能支援Intel全系列的Xeon Scalable Processor(簡稱Xeon SP)處理器:
Intel Xeon Scalable處理器初代Skylake-SP型號一覽
R4700 G3最高可以支援至TDP 205W的Xeon SP Platium 8180M, 可以每顆處理器提供28個核心、56個執行緒, 以及1.5TiB的記憶體支援能力。 並不是所有的1U機架伺服器都能支援這樣的頂級配置。
整機在雙路配置下最多可以提供56個硬體核心和112個硬體執行緒, 最多3.0TiB DDR4-2666記憶體支援能力。
從尾部來看, R4700 G3提供了兩個全高的PCIe擴充槽, 除了常見的網卡/陣列卡等的擴展卡之外, 它還能支持企業級高性能GPU卡, 提供兩塊NVIDIA M4或M4000的支援能力。 前面說過, H3C UniServer R4700 G3獲得了紅點設計大獎, 接下來, 我們會從外及裡稍微詳細介紹一下H3C UniServer R4700 G3的獨特設計。
儘管是1U機架伺服器, H3C UniServer R4700 G3仍然提供了最多12SFF(Small Form Factor)的2.5"存儲擴展能力,
H3C UniServer R4700 G3 8SFF配置
H3C UniServer R4700 G3通過板載位置搭載的陣列卡, 可以支援標準的SATA和SAS硬碟或者SSD, H3C UniServer R4700 G3還可以支援最多4個NVMe SFF SSD, 同時也能支援M.2 SSD。
不佔用額外擴充槽位的專用陣列卡位置, 我們收到的型號搭載的是H3C UN-RAID-P430-M1陣列卡, 通過兩個HD-SAS提供8個SAS 12Gb/s介面
透過HDM遠端系統管理介面可以看到陣列卡的型號, 以及配置的三塊硬碟, 它們組成了一個標準的RAID 5陣列
配置的三塊Seagate Enterprise Performance 15K HDD v5,型號ST300MP0005,介面SAS 12Gb/s,容量300GB,轉速達15,000RPM,是HDD硬碟當中的佼佼者
H3C UN-RAID-P430-M1實際上是現屬Microsemi的PMC的陣列卡,除了支援最新的SAS 12Gb/s介面之外,它還支援很多比較新的特性。
伺服器電源是綠色節能的最重要部件之一
如今的伺服器廠商已經越來越注重綠色節能,H3C UniServer R4700 G3只提供了兩種高效電源選擇:94%效率的白金版(80Plus Platium)和96%效率的鈦金版(80Plus Titanium),80Plus標誌的最初含義就是電源效率典型值不低於80%,但現在H3C將其提升到了94%。我們收到的型號搭配的是兩個FSP全漢的550W電源。比較特別的是,H3C UniServer R4700 G3支持336V的HVDC高壓直流電源。
HDM介面裡面可以看到電源的型號,實際上它還能看到即時功率(在另一個介面)
由於H3C可以1U的厚度裡塞入頂級的CPU、記憶體和不那麼頂級的GPU,因此這個散熱設計非常重要,H3C UniServer R4700 G3的散熱設計尤為值得一提:
H3C UniServer R4700 G3的導風罩(中央透明塑膠質感部分)非常輕巧,但效果顯著,其右方就是超強性能的冗餘風扇,上四下三中間的空地為板載陣列卡的BBU備份電池單元的固定裝置
一般情況下,伺服器過熱當機是難以接受的,H3C UniServer R4700 G3的7個冗餘風扇每個單元還提供了前後冗餘:
超強性能的7個冗餘散熱風扇,真的超強……
H3C UniServer R4700 G3提供的高效系統散熱設計首先依賴于大量的感測器:
H3C將其稱為"溫度海洋",來源於HPE的“Sea of Sensors”,足夠多的感測器可以充分地監測到每一個角落
H3C的溫度海洋技術可以用3D方式顯示伺服器內部溫度——其高度就代表溫度的高低,在這裡我可以提前告訴大家,在這好一段的評測使用當中, 我們看到溫度最高的不是CPU,不是記憶體,不是陣列卡,是BMC遠端控制晶片(沒人管真可憐)。
一共20個檔位,一般的使用中筆者將其設為最靜音的1檔,這裡設為20檔演示一下
……效果顯著,23100RPM的轉速讓人覺得住在了飛機場旁邊
當然最高檔位一般來說沒什麼必要,H3C通過溫度檢測,根據負載實行智慧PID調速即時調整散熱策略,一般來說,設為2檔已經可以提供足夠的散熱能力:
H3C UniServer R4700 G3當中每個散熱風扇對應每個溫度感應器都有獨立的權重,並且精細到每10%為一檔,在低負荷時,散熱系統的雜訊和功耗都非常低。整個系統可以達到很高的散熱效率。
前面我們說過,新華三H3C UniServer R4700 G3可以最高支援至TDP 205W的Xeon SP Platium 8180M,雙路配置下最多可以提供56個硬體核心和112個硬體執行緒,最多3.0TiB DDR4-2666記憶體支援能力,我們可以看到一共具有24個DDR4 DIMM,合12個記憶體通道:
我們收到的機器搭配的是12條SK. Hynix的16GiB DDR4-2666記憶體;銀白色散熱器下方就是CPU
需要特別指出的是,由於散熱能力的差別,不是所有的1U伺服器都能支持最頂級的處理器以及最大容量的記憶體,H3C R4700 G3可以支援Xeon Platium 8180M和128GiB單條的LR DIMM,這是一些其他1U伺服器所不具備的。
在擴展性上,H3C R4700 G3也有其特別之處:
後視圖
H3C R4700 G3提供了兩個全高全長(FHFL)的PCIe 3.0 x16插槽,除了可以連接高速IO設備之外,它還能支持企業級的GPU:
H3C R4700 G3的PCIe Riser上具有一個8PIN的PCIe電源插座,猜測其為輸出電能到GPU加速卡
EPP 8PIN PCIe電源提供的功率為可達150W,在這裡似乎有些大材小用,因為H3C謙遜地標注R4700 G3支持最大功率120W的GPU加速卡,目前可以選擇的型號有NVIDIA的M4和M4000。很多1U機架伺服器並不能支持企業級GPU,或者說,功耗比較高的GPU。
除了兩個自由的PCIe x16擴充槽之外,前面介紹過R4700 G3還提供了一個專用於板載陣列卡的PCIe x8介面,至於網路,R4700 G3和其他的伺服器有些不太一樣:
藍色表示這個可以安全免工具維護操作,意味著這個4口RJ45網路介面單元是可以拆卸的
首先特別的一點是,R4700 G3的板載網路可以非常方便地進行更換和重新配置,它採用了一種很少見的子卡設計:
不知道原名的我們將其稱為網卡籠,大量的空間以及孔洞可以提供充足的散熱能力
這個網路子卡+網卡籠的設計不僅僅可以免工具維護——它還是伺服器免抽取的,只要在後面板擰螺絲就可以了。
帶有多針接外掛程式和金屬定位杆孔位元的網路介面子卡
第二點特別的地方在於,這個部件是可以帶電熱插拔的,我不清楚是否很多人都清楚這一點,但按照網卡晶片的設計,它是具有這個特性的。
Marvell 88E1543晶片,這其實只是一個不太重要的四口1Gb乙太網PHY晶片……
第三點特別之處在於,這個網路子卡實際上只是一個PHY晶片,網卡實際上是包含在主機板的Intel PCH晶片上,學名Intel Ethernet Connection X722,它其實是一塊基於Intel X710獨立40Gb乙太網卡改良的片內網卡,具有相似的規格和一致的驅動:
BIOS裡顯示為四個Intel Ehternet Connection X722 for 1GbE,這是因為插入的是四口RJ45 1Gb模組
這個網卡具有多種介面配置,H3C目前提供的有三種:四口千兆銅口、雙口萬兆光口、雙口萬兆電口。原則上,系統可以支援最多四口萬兆。通過切換不同的模組,系統就可以方便地實現不同的介面形式和傳輸速率。
空空的網卡籠
最後是兩點R4700網路配置的特質:一點是這個網卡通過專用的PCIe介面與CPU直連,而不是與以前的板載網卡一樣連載延遲更高的PCH晶片組上,另一點是這個新網卡可以支援iWARP(Internet Wide Area RDMA Protocol) RDMA功能,提供了一種極為快速的互聯能力,並且不管使用什麼樣的介面子卡都具備。遺憾的是,本次我們不對其進行測試。關於H3C R4700 G3的內部設計我們就介紹到這裡,下面我們將開始介紹我們進行的測試。
SPEC CPU是一個應用廣泛的大型CPU性能測試專案,SPEC是標準性能評估公司(Standard Performance Evaluation Corporation)的簡稱,這是一個由電腦廠商、系統集成商、大學、研究機構、諮詢等多家公司組成的非營利性組織,這個組織的目標是建立、維護一套用於評估電腦系統的標準。除了SPEC CPU之外,SPECviewperf系列產品也是常見的測試工作站/圖形卡部件所用到的測試軟體,類似的專案還有如SPECjbb 2015(Java應用性能)、SPEC SFS2015(檔案伺服器性能)等。
SPEC CPU是SPEC組織推出的一套CPU子系統評估軟體,目前最新版本是SPEC CPU2017,於2017年6月20日發佈,不錯相關測試還在準備之中,本次測試中我們使用的仍然是SPEC CPU2006。SPEC CPU2006包括CINT2006和CFP2006兩個子專案,分別用於測量整數性能和浮點性能。SPEC CPU的測試元件均來源於真實的應用程式,並經過修改以降低對IO子系統的影響,在測試中,測試系統的處理器、記憶體子系統和使用到的編譯器(SPEC CPU測試提供的是原始程式碼,並且允許測試使用者按照規則進行一定的編譯優化)都會影響最終的測試性能,而I/O(磁片)、網路、作業系統和圖形子系統對於SPEC CPU2006的影響非常之小。
SPEC CPU2006包括了12項整數運算和17項浮點運算,除此之外,還有兩個亂數產生測試程式998.sperand(整數)和999.specrand(浮點),它們雖然也包含在套件中並得到運行,但是它們並不進行計時以獲得得分。這兩個測試主要是用來驗證一些其他組件中會用到的PRNG亂數產生功能的正確性。各個測試元件基本上由C和Fortran語言編寫,有7個測試專案使用了C++語言,而Fortran語言均用來編寫浮點部分。SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作為基準參考系統,系統基於一顆296MHz的UltraSPARC II處理器,測試的得分就表明這個專案中測試系統相對基準系統性能的比值。
SPEC CPU2006測試子項目 by 盤駿/Lucifer
測試使用了當前這一個階段我們的基準測試配置,包括基於當然仍然算還比較新的Intel C&Fortran Compiler編譯器17.0 update 3,以及MicroQuill的SmartHeap 10.2堆管理器。H3C UniServer R4700 G3的處理器支援AVX512,但基於AVX-512代碼的測試仍然在進行中。對於Intel Skylake-SP處理器而言,運行不同擴展指令集的代碼會和功耗、Turbo Boost具有一個複雜的影響關係。必須得說,這種複雜性對用戶來說整體上是更好的,但它也讓理解系統的運行狀態變得更加麻煩。如下圖所示:
Intel Skylake-SP上,Turbo Boost睿頻技術具有6個峰值頻率,按照負載的不同而不同
實際上具有的頻率還更多,因為原有的Turbo Boost睿頻技術本身就讓系統在不同數量核心負載時具有不同的頻率,因此按照non-AVX/AVX2/AVX-512的不同,這個頻率表的規模要乘以三倍,在下一頁的配置表中,我們給出了被測試伺服器的基準頻率表,也就是運行非AVX2、AVX-512代碼時的頻率表這個。在運行AVX-512代碼的時候,不管是基頻,還是Turbo頻率,全線都會有所降低,這有時會帶來一些負面影響。
實際上,我們為測試機器試驗了兩種作業系統:一種是Debian GNU/Linux 9.3.0 Stretch x64,並搭載了其時最新的Linux Kernel 4.14.6-041406-lowlatency #201712140930 x64內核,但它略微有些不太穩定;第二種是SuSE Linux Enterprise Server 12 SP3 x64(簡稱SLES12 SP3),基於SUSE當時最新的Linux Kernel 4.4.92-6.30-default x64內核,提供了非常穩定的體驗,但內核並沒有那麼新,最終我們發現它們的性能各有千秋。我們給出的是SLES12 SP3下的數據。
H3C UniServer R4700 G3測試平臺與測試環境
測試平臺基於雙路Intel Xeon SP Gold 6142處理器,主頻2.6GHz,最高可以Turbo到3.7GHz(但運行AVX2代碼的時候會降低一些),Gold 6142核心數量為16,硬體執行緒32,整台雙路機器就具有32個核心和64個執行緒。Gold 6142提供了3個10.4GT/s的UPI介面,提供了很高的性能,記憶體方面,H3C UniServer R4700 G3總共提供24個DDR4 DIMM,合12個記憶體通道,H3C為我們配置了12條16GiB的SK. Hynix R-ECC DDR4-2666記憶體以最大化記憶體性能。H3C UniServer R4700 G3搭載的是Intel Lewisburg C622晶片組,不過它和本文測試的計算性能基本上沒有關聯,同理,存儲子系統也沒有產生什麼影響。但關於它們還有不少值得稱道的地方,我們計畫在後面的文章中進行介紹。
除了整數運算和浮點運算的差別之外,SPEC CPU2006測試還分兩種:SPEED測試和RATE測試,SPEED測試類型運行單個實例,用來測試系統運行單作業的時候的運算能力,RATE測試則是運行多個實例,用來測試系統的總運算吞吐能力。SPEC CPU測試還會給出兩種類型的結果:Base基準測試結果和Peak峰值測試結果,Base測試要求編譯器套件按照指定的規則進行優化,而Peak測試則可以允許使用更多的優化技術,可以看出,前者可以用來簡單對比不同的平臺,而後者則在對比因素中加入了編譯器等因素,有實力編寫編譯器的廠商可以從中獲益。本頁給出的是SPEED測試結果,按照整數到浮點、Base測試到Peak測試排列四個成績圖示,每個圖表給出了測試系統及對比系統的每個子專案的成績。圖表圖例文字中最後的"2S32C64T"欄位指的是2 Sockets、32 Cores、64 Threads,意思是“2插槽32核心64執行緒”。
時間緊迫,我們沒有進行non-AVX的測試以和前數代官方平臺進行對比,而是直接進行了已經普及的AVX2測試。對比的平臺都是當時的頂級配置,儘管系統和編輯器與現在相比可能有所不如。我們先進行的是SPEED測試,這個測試中系統全力以赴運行一個實例——通常是一個進程,但編譯器和作業系統可能會根據情況將其編譯為多個執行緒並分散到多個核心上運行,因此有些項目會看到非常可觀的性能表現:
SPECint_base2006,整數,SPEED測試,Base基準測試
SPECint2006,整數,SPEED測試,Peak峰值測試
462.libquantum是一個模擬量子計算的子項目,它極大地依賴於記憶體性能,因此新的系統比上一代增加了50%的記憶體通道數量提供了無與倫比的優勢。大部分SPEED測試均使用不超過2個CPU核心,因此通常Intel的處理器可以Turbo到最高頻率(但運行AVX2代碼又會降低一些頻率)。在2個核心的情況下,2.6GHz的Skylake-SP/Xeon Gold 6142可以Turbo至3.7GHz(記住運行AVX2代碼時又會降低一些頻率),而Broadwell-EP/Xeon E5-2699 v4和Haswell-EP/Xeon E5-2699 v3的這個頻率都是3.6GHz,Ivy Bridge-EP/Xeon E5-2697 v2則是3.5GHz。
SPECfp_base2006,浮點,SPEED測試,Base基準測試
SPECfp2006,浮點,SPEED測試,Peak峰值測試
我們可以看到,基於Intel Xeon SP Gold 6142的H3C UniServer R4700 G3在單任務上提供了比上一代超出非常多的優勢,SPECint_base2006為73.1,SPECfp_base2006為135。即使是考慮老平臺也使用AVX2代碼,我們以前的測試表明並沒有多大的提升。
除了整數運算和浮點運算的差別之外,SPEC CPU2006測試還分兩種:SPEED測試和RATE測試,SPEED測試類型運行單個實例,用來測試系統運行單作業的時候的運算能力,RATE測試則是運行多個實例,用來測試系統的總運算吞吐能力。SPEC CPU測試還會給出兩種類型的結果:Base基準測試結果和Peak峰值測試結果,Base測試要求編譯器套件按照指定的規則進行優化,而Peak測試則可以允許使用更多的優化技術,可以看出,前者可以用來簡單對比不同的平臺,而後者則在對比因素中加入了編譯器等因素,有實力編寫編譯器的廠商可以從中獲益。本頁給出的是SPEED測試結果,按照整數到浮點、Base測試到Peak測試排列四個成績圖示,每個圖表給出了測試系統及對比系統的每個子專案的成績。圖表圖例文字中最後的"2S32C64T"欄位指的是2 Sockets、32 Cores、64 Threads,意思是“2插槽32核心64執行緒”。
SPEED測試關注的是單個任務完成的速度,或說延遲,因此處理器核心的頻率而非數量起主要作用;而RATE測試關注的整體的輸送量,這也是一般伺服器應用關注的指標,這時處理器的核心數量就具有了可觀的影響。根據Spec,在所有核心滿負荷的時候,Ivy Bridge-EP/Intel Xeon E5-2697 v2工作在3.0GHz,Haswell-EP/Intel Xeon E5-2699 v3和Broadwell-EP/Intel Xeon E5-2699 v4都工作在2.8GHz,Skylake-SP/Xeon Gold 6142則工作在3.3GHz,但運行AVX2/AVX-512代碼時頻率會有所降低,總的來說,Gold 6142的頻率並沒有太多的優勢:
SPECint_rate_base2006,整數,RATE測試,Base基準測試
SPECint_rate2006,整數,RATE測試,Peak峰值測試
SPECfp_rate_base2006,浮點,RATE測試,Base基準測試
SPECfp_rate2006,浮點,RATE測試,Peak峰值測試
基本上,在核心數量處於劣勢、運行頻率不佔優勢的情況下,H3C UniServer R4700 G3仍然提供了更為出色的計算性能,SPECint_rate_base2006為1540,SPECfp_rate_base2006為1170。
【至頂網實驗室】我們進行了關注計算密集/記憶體密集應用的SPEC CPU2006測試,在測試當中,H3C UniServer R4700 G3伺服器展示了強大的實力,在搭配雙路Intel Xeon Scalable Processor Gold 6142時,可以提供比核心數量有明顯優勢的上一代平臺超出不少的計算性能,其中,提升50%的記憶體通道數量功不可沒,它提供了更高的記憶體頻寬,同時DDR4-2666的配置也降低了延遲,同時Intel Xeon Scalable Processor的內部Cache設計也可以讓大部分狀況下都能提供更低的延遲。我們對H3C UniServer R4700 G3伺服器的性能表現非常滿意。
H3C UniServer R4700 G3高密度1U機架式伺服器
除了性能之外,獲得了reddot award 2017大獎的H3C UniServer R4700 G3伺服器在硬體設計上也非常出色,其能源效率、散熱設計、包括網路介面在內的IO能力、擴展能力性都非常特別。
H3C UniServer R4700 G3的內部設計很出色
它們組成了一個標準的RAID 5陣列配置的三塊Seagate Enterprise Performance 15K HDD v5,型號ST300MP0005,介面SAS 12Gb/s,容量300GB,轉速達15,000RPM,是HDD硬碟當中的佼佼者
H3C UN-RAID-P430-M1實際上是現屬Microsemi的PMC的陣列卡,除了支援最新的SAS 12Gb/s介面之外,它還支援很多比較新的特性。
伺服器電源是綠色節能的最重要部件之一
如今的伺服器廠商已經越來越注重綠色節能,H3C UniServer R4700 G3只提供了兩種高效電源選擇:94%效率的白金版(80Plus Platium)和96%效率的鈦金版(80Plus Titanium),80Plus標誌的最初含義就是電源效率典型值不低於80%,但現在H3C將其提升到了94%。我們收到的型號搭配的是兩個FSP全漢的550W電源。比較特別的是,H3C UniServer R4700 G3支持336V的HVDC高壓直流電源。
HDM介面裡面可以看到電源的型號,實際上它還能看到即時功率(在另一個介面)
由於H3C可以1U的厚度裡塞入頂級的CPU、記憶體和不那麼頂級的GPU,因此這個散熱設計非常重要,H3C UniServer R4700 G3的散熱設計尤為值得一提:
H3C UniServer R4700 G3的導風罩(中央透明塑膠質感部分)非常輕巧,但效果顯著,其右方就是超強性能的冗餘風扇,上四下三中間的空地為板載陣列卡的BBU備份電池單元的固定裝置
一般情況下,伺服器過熱當機是難以接受的,H3C UniServer R4700 G3的7個冗餘風扇每個單元還提供了前後冗餘:
超強性能的7個冗餘散熱風扇,真的超強……
H3C UniServer R4700 G3提供的高效系統散熱設計首先依賴于大量的感測器:
H3C將其稱為"溫度海洋",來源於HPE的“Sea of Sensors”,足夠多的感測器可以充分地監測到每一個角落
H3C的溫度海洋技術可以用3D方式顯示伺服器內部溫度——其高度就代表溫度的高低,在這裡我可以提前告訴大家,在這好一段的評測使用當中, 我們看到溫度最高的不是CPU,不是記憶體,不是陣列卡,是BMC遠端控制晶片(沒人管真可憐)。
一共20個檔位,一般的使用中筆者將其設為最靜音的1檔,這裡設為20檔演示一下
……效果顯著,23100RPM的轉速讓人覺得住在了飛機場旁邊
當然最高檔位一般來說沒什麼必要,H3C通過溫度檢測,根據負載實行智慧PID調速即時調整散熱策略,一般來說,設為2檔已經可以提供足夠的散熱能力:
H3C UniServer R4700 G3當中每個散熱風扇對應每個溫度感應器都有獨立的權重,並且精細到每10%為一檔,在低負荷時,散熱系統的雜訊和功耗都非常低。整個系統可以達到很高的散熱效率。
前面我們說過,新華三H3C UniServer R4700 G3可以最高支援至TDP 205W的Xeon SP Platium 8180M,雙路配置下最多可以提供56個硬體核心和112個硬體執行緒,最多3.0TiB DDR4-2666記憶體支援能力,我們可以看到一共具有24個DDR4 DIMM,合12個記憶體通道:
我們收到的機器搭配的是12條SK. Hynix的16GiB DDR4-2666記憶體;銀白色散熱器下方就是CPU
需要特別指出的是,由於散熱能力的差別,不是所有的1U伺服器都能支持最頂級的處理器以及最大容量的記憶體,H3C R4700 G3可以支援Xeon Platium 8180M和128GiB單條的LR DIMM,這是一些其他1U伺服器所不具備的。
在擴展性上,H3C R4700 G3也有其特別之處:
後視圖
H3C R4700 G3提供了兩個全高全長(FHFL)的PCIe 3.0 x16插槽,除了可以連接高速IO設備之外,它還能支持企業級的GPU:
H3C R4700 G3的PCIe Riser上具有一個8PIN的PCIe電源插座,猜測其為輸出電能到GPU加速卡
EPP 8PIN PCIe電源提供的功率為可達150W,在這裡似乎有些大材小用,因為H3C謙遜地標注R4700 G3支持最大功率120W的GPU加速卡,目前可以選擇的型號有NVIDIA的M4和M4000。很多1U機架伺服器並不能支持企業級GPU,或者說,功耗比較高的GPU。
除了兩個自由的PCIe x16擴充槽之外,前面介紹過R4700 G3還提供了一個專用於板載陣列卡的PCIe x8介面,至於網路,R4700 G3和其他的伺服器有些不太一樣:
藍色表示這個可以安全免工具維護操作,意味著這個4口RJ45網路介面單元是可以拆卸的
首先特別的一點是,R4700 G3的板載網路可以非常方便地進行更換和重新配置,它採用了一種很少見的子卡設計:
不知道原名的我們將其稱為網卡籠,大量的空間以及孔洞可以提供充足的散熱能力
這個網路子卡+網卡籠的設計不僅僅可以免工具維護——它還是伺服器免抽取的,只要在後面板擰螺絲就可以了。
帶有多針接外掛程式和金屬定位杆孔位元的網路介面子卡
第二點特別的地方在於,這個部件是可以帶電熱插拔的,我不清楚是否很多人都清楚這一點,但按照網卡晶片的設計,它是具有這個特性的。
Marvell 88E1543晶片,這其實只是一個不太重要的四口1Gb乙太網PHY晶片……
第三點特別之處在於,這個網路子卡實際上只是一個PHY晶片,網卡實際上是包含在主機板的Intel PCH晶片上,學名Intel Ethernet Connection X722,它其實是一塊基於Intel X710獨立40Gb乙太網卡改良的片內網卡,具有相似的規格和一致的驅動:
BIOS裡顯示為四個Intel Ehternet Connection X722 for 1GbE,這是因為插入的是四口RJ45 1Gb模組
這個網卡具有多種介面配置,H3C目前提供的有三種:四口千兆銅口、雙口萬兆光口、雙口萬兆電口。原則上,系統可以支援最多四口萬兆。通過切換不同的模組,系統就可以方便地實現不同的介面形式和傳輸速率。
空空的網卡籠
最後是兩點R4700網路配置的特質:一點是這個網卡通過專用的PCIe介面與CPU直連,而不是與以前的板載網卡一樣連載延遲更高的PCH晶片組上,另一點是這個新網卡可以支援iWARP(Internet Wide Area RDMA Protocol) RDMA功能,提供了一種極為快速的互聯能力,並且不管使用什麼樣的介面子卡都具備。遺憾的是,本次我們不對其進行測試。關於H3C R4700 G3的內部設計我們就介紹到這裡,下面我們將開始介紹我們進行的測試。
SPEC CPU是一個應用廣泛的大型CPU性能測試專案,SPEC是標準性能評估公司(Standard Performance Evaluation Corporation)的簡稱,這是一個由電腦廠商、系統集成商、大學、研究機構、諮詢等多家公司組成的非營利性組織,這個組織的目標是建立、維護一套用於評估電腦系統的標準。除了SPEC CPU之外,SPECviewperf系列產品也是常見的測試工作站/圖形卡部件所用到的測試軟體,類似的專案還有如SPECjbb 2015(Java應用性能)、SPEC SFS2015(檔案伺服器性能)等。
SPEC CPU是SPEC組織推出的一套CPU子系統評估軟體,目前最新版本是SPEC CPU2017,於2017年6月20日發佈,不錯相關測試還在準備之中,本次測試中我們使用的仍然是SPEC CPU2006。SPEC CPU2006包括CINT2006和CFP2006兩個子專案,分別用於測量整數性能和浮點性能。SPEC CPU的測試元件均來源於真實的應用程式,並經過修改以降低對IO子系統的影響,在測試中,測試系統的處理器、記憶體子系統和使用到的編譯器(SPEC CPU測試提供的是原始程式碼,並且允許測試使用者按照規則進行一定的編譯優化)都會影響最終的測試性能,而I/O(磁片)、網路、作業系統和圖形子系統對於SPEC CPU2006的影響非常之小。
SPEC CPU2006包括了12項整數運算和17項浮點運算,除此之外,還有兩個亂數產生測試程式998.sperand(整數)和999.specrand(浮點),它們雖然也包含在套件中並得到運行,但是它們並不進行計時以獲得得分。這兩個測試主要是用來驗證一些其他組件中會用到的PRNG亂數產生功能的正確性。各個測試元件基本上由C和Fortran語言編寫,有7個測試專案使用了C++語言,而Fortran語言均用來編寫浮點部分。SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作為基準參考系統,系統基於一顆296MHz的UltraSPARC II處理器,測試的得分就表明這個專案中測試系統相對基準系統性能的比值。
SPEC CPU2006測試子項目 by 盤駿/Lucifer
測試使用了當前這一個階段我們的基準測試配置,包括基於當然仍然算還比較新的Intel C&Fortran Compiler編譯器17.0 update 3,以及MicroQuill的SmartHeap 10.2堆管理器。H3C UniServer R4700 G3的處理器支援AVX512,但基於AVX-512代碼的測試仍然在進行中。對於Intel Skylake-SP處理器而言,運行不同擴展指令集的代碼會和功耗、Turbo Boost具有一個複雜的影響關係。必須得說,這種複雜性對用戶來說整體上是更好的,但它也讓理解系統的運行狀態變得更加麻煩。如下圖所示:
Intel Skylake-SP上,Turbo Boost睿頻技術具有6個峰值頻率,按照負載的不同而不同
實際上具有的頻率還更多,因為原有的Turbo Boost睿頻技術本身就讓系統在不同數量核心負載時具有不同的頻率,因此按照non-AVX/AVX2/AVX-512的不同,這個頻率表的規模要乘以三倍,在下一頁的配置表中,我們給出了被測試伺服器的基準頻率表,也就是運行非AVX2、AVX-512代碼時的頻率表這個。在運行AVX-512代碼的時候,不管是基頻,還是Turbo頻率,全線都會有所降低,這有時會帶來一些負面影響。
實際上,我們為測試機器試驗了兩種作業系統:一種是Debian GNU/Linux 9.3.0 Stretch x64,並搭載了其時最新的Linux Kernel 4.14.6-041406-lowlatency #201712140930 x64內核,但它略微有些不太穩定;第二種是SuSE Linux Enterprise Server 12 SP3 x64(簡稱SLES12 SP3),基於SUSE當時最新的Linux Kernel 4.4.92-6.30-default x64內核,提供了非常穩定的體驗,但內核並沒有那麼新,最終我們發現它們的性能各有千秋。我們給出的是SLES12 SP3下的數據。
H3C UniServer R4700 G3測試平臺與測試環境
測試平臺基於雙路Intel Xeon SP Gold 6142處理器,主頻2.6GHz,最高可以Turbo到3.7GHz(但運行AVX2代碼的時候會降低一些),Gold 6142核心數量為16,硬體執行緒32,整台雙路機器就具有32個核心和64個執行緒。Gold 6142提供了3個10.4GT/s的UPI介面,提供了很高的性能,記憶體方面,H3C UniServer R4700 G3總共提供24個DDR4 DIMM,合12個記憶體通道,H3C為我們配置了12條16GiB的SK. Hynix R-ECC DDR4-2666記憶體以最大化記憶體性能。H3C UniServer R4700 G3搭載的是Intel Lewisburg C622晶片組,不過它和本文測試的計算性能基本上沒有關聯,同理,存儲子系統也沒有產生什麼影響。但關於它們還有不少值得稱道的地方,我們計畫在後面的文章中進行介紹。
除了整數運算和浮點運算的差別之外,SPEC CPU2006測試還分兩種:SPEED測試和RATE測試,SPEED測試類型運行單個實例,用來測試系統運行單作業的時候的運算能力,RATE測試則是運行多個實例,用來測試系統的總運算吞吐能力。SPEC CPU測試還會給出兩種類型的結果:Base基準測試結果和Peak峰值測試結果,Base測試要求編譯器套件按照指定的規則進行優化,而Peak測試則可以允許使用更多的優化技術,可以看出,前者可以用來簡單對比不同的平臺,而後者則在對比因素中加入了編譯器等因素,有實力編寫編譯器的廠商可以從中獲益。本頁給出的是SPEED測試結果,按照整數到浮點、Base測試到Peak測試排列四個成績圖示,每個圖表給出了測試系統及對比系統的每個子專案的成績。圖表圖例文字中最後的"2S32C64T"欄位指的是2 Sockets、32 Cores、64 Threads,意思是“2插槽32核心64執行緒”。
時間緊迫,我們沒有進行non-AVX的測試以和前數代官方平臺進行對比,而是直接進行了已經普及的AVX2測試。對比的平臺都是當時的頂級配置,儘管系統和編輯器與現在相比可能有所不如。我們先進行的是SPEED測試,這個測試中系統全力以赴運行一個實例——通常是一個進程,但編譯器和作業系統可能會根據情況將其編譯為多個執行緒並分散到多個核心上運行,因此有些項目會看到非常可觀的性能表現:
SPECint_base2006,整數,SPEED測試,Base基準測試
SPECint2006,整數,SPEED測試,Peak峰值測試
462.libquantum是一個模擬量子計算的子項目,它極大地依賴於記憶體性能,因此新的系統比上一代增加了50%的記憶體通道數量提供了無與倫比的優勢。大部分SPEED測試均使用不超過2個CPU核心,因此通常Intel的處理器可以Turbo到最高頻率(但運行AVX2代碼又會降低一些頻率)。在2個核心的情況下,2.6GHz的Skylake-SP/Xeon Gold 6142可以Turbo至3.7GHz(記住運行AVX2代碼時又會降低一些頻率),而Broadwell-EP/Xeon E5-2699 v4和Haswell-EP/Xeon E5-2699 v3的這個頻率都是3.6GHz,Ivy Bridge-EP/Xeon E5-2697 v2則是3.5GHz。
SPECfp_base2006,浮點,SPEED測試,Base基準測試
SPECfp2006,浮點,SPEED測試,Peak峰值測試
我們可以看到,基於Intel Xeon SP Gold 6142的H3C UniServer R4700 G3在單任務上提供了比上一代超出非常多的優勢,SPECint_base2006為73.1,SPECfp_base2006為135。即使是考慮老平臺也使用AVX2代碼,我們以前的測試表明並沒有多大的提升。
除了整數運算和浮點運算的差別之外,SPEC CPU2006測試還分兩種:SPEED測試和RATE測試,SPEED測試類型運行單個實例,用來測試系統運行單作業的時候的運算能力,RATE測試則是運行多個實例,用來測試系統的總運算吞吐能力。SPEC CPU測試還會給出兩種類型的結果:Base基準測試結果和Peak峰值測試結果,Base測試要求編譯器套件按照指定的規則進行優化,而Peak測試則可以允許使用更多的優化技術,可以看出,前者可以用來簡單對比不同的平臺,而後者則在對比因素中加入了編譯器等因素,有實力編寫編譯器的廠商可以從中獲益。本頁給出的是SPEED測試結果,按照整數到浮點、Base測試到Peak測試排列四個成績圖示,每個圖表給出了測試系統及對比系統的每個子專案的成績。圖表圖例文字中最後的"2S32C64T"欄位指的是2 Sockets、32 Cores、64 Threads,意思是“2插槽32核心64執行緒”。
SPEED測試關注的是單個任務完成的速度,或說延遲,因此處理器核心的頻率而非數量起主要作用;而RATE測試關注的整體的輸送量,這也是一般伺服器應用關注的指標,這時處理器的核心數量就具有了可觀的影響。根據Spec,在所有核心滿負荷的時候,Ivy Bridge-EP/Intel Xeon E5-2697 v2工作在3.0GHz,Haswell-EP/Intel Xeon E5-2699 v3和Broadwell-EP/Intel Xeon E5-2699 v4都工作在2.8GHz,Skylake-SP/Xeon Gold 6142則工作在3.3GHz,但運行AVX2/AVX-512代碼時頻率會有所降低,總的來說,Gold 6142的頻率並沒有太多的優勢:
SPECint_rate_base2006,整數,RATE測試,Base基準測試
SPECint_rate2006,整數,RATE測試,Peak峰值測試
SPECfp_rate_base2006,浮點,RATE測試,Base基準測試
SPECfp_rate2006,浮點,RATE測試,Peak峰值測試
基本上,在核心數量處於劣勢、運行頻率不佔優勢的情況下,H3C UniServer R4700 G3仍然提供了更為出色的計算性能,SPECint_rate_base2006為1540,SPECfp_rate_base2006為1170。
【至頂網實驗室】我們進行了關注計算密集/記憶體密集應用的SPEC CPU2006測試,在測試當中,H3C UniServer R4700 G3伺服器展示了強大的實力,在搭配雙路Intel Xeon Scalable Processor Gold 6142時,可以提供比核心數量有明顯優勢的上一代平臺超出不少的計算性能,其中,提升50%的記憶體通道數量功不可沒,它提供了更高的記憶體頻寬,同時DDR4-2666的配置也降低了延遲,同時Intel Xeon Scalable Processor的內部Cache設計也可以讓大部分狀況下都能提供更低的延遲。我們對H3C UniServer R4700 G3伺服器的性能表現非常滿意。
H3C UniServer R4700 G3高密度1U機架式伺服器
除了性能之外,獲得了reddot award 2017大獎的H3C UniServer R4700 G3伺服器在硬體設計上也非常出色,其能源效率、散熱設計、包括網路介面在內的IO能力、擴展能力性都非常特別。
H3C UniServer R4700 G3的內部設計很出色