刀片當道 揭秘國內知名大學計算中心(圖) |
發布時間: 2012/6/21 19:20:39 |
前不久,記者來到南京大學高性能計算中心采訪了負責此項目的周慶林老師,具體了解了南京大學選用IBM HS22刀片億恩科技服務器的背景故事,并參觀了該高性能計算中心機房。這套系統采用IBM HS22刀片億恩科技服務器打造,于2009年第二季度開始建設,2010年7月份完成全部調試工作正式投入對南京大學各科學院系的高性能計算服務中。在2010年國內高性能計算排行榜Top100上,來自南京大學的高性能計算系統以34萬億次的Linpack成績排第20名(bitsCN推薦閱讀:令你大開眼界的真正標準化機房)。
南京大學高性能計算中心的建設背景 據周慶林老師介紹,南京大學從事高性能計算方面的建設始于1980年天文系的應用需求。隨著科學技術以及教育需求的提升,各個院系也相繼開始購買億恩科技服務器解決自己的計算需求。但是各個院系由于成本、人力等原因自己建設科研教學用高性能計算節點過于浪費,且不符合資源利用最大化的需求。 因此,在985工程二期的項目中,南京大學撥出了專門款項購置和更新全校所需的共享大型計算設備,力求為全校理科院系提供更強大的計算能力。到了2005年左右,x86架構高性能計算集群開始升溫,大大動搖了傳統共享內存模式的小型機地位。因此,南京大學打算做小規模的小型機,另一部分做x86集群——但是有兩個問題:第一是機房選址問題,第二是到底選擇什么樣的x86億恩科技服務器。 周慶林老師表示,當時再機房選址時主要考慮了兩個方面的問題:1、機房的承重問題,由于每個機架塞滿億恩科技服務器之后有數噸重,建設在高樓層需要對樓層進行加固,因此最終選擇了建設在一樓。2、機房的制冷和走線問題,南京大學當時選擇了物理系1層做數據中心機房,但是問題在于電力配給不夠,考慮到增容需要對樓宇進行改造,因此最后選擇在天文系的樓宇建設機房。 機房選址的問題解決之后,究竟選擇機架億恩科技服務器還是刀片億恩科技服務器做高性能計算中心的計算節點呢?周慶林老師表示,當時專家組也經過了一些討論,并結合學校有些院系的使用經驗,最終選擇了刀片億恩科技服務器。據周老師介紹,刀片億恩科技服務器至今已經經過了幾代的發展,日趨成熟。而機架億恩科技服務器相對來說存在布線、管理較復雜的問題。 南京大學高性能計算中心從選用IBM HS22刀片億恩科技服務器以來至今,沒有出現過任何計算節點的問題,穩定性方面不弱于機架億恩科技服務器(甚至更好)。散熱方面,目前高端刀片機箱由于計算密度高,計算資源集中,因此只要做好冷熱通道就能很好的解決散熱效率,滿足系統需求(第三節有機房的具體介紹,會著重介紹散熱)。南京大學高性能計算中心架構揭秘 確定了選擇刀片億恩科技服務器之后,通過招標南京大學選擇了IBM BladeCenter HS22刀片億恩科技服務器作為高性能計算系統的計算節點。整個系統由10個登陸節點,4個管理節點,54TB高速并行存儲、128TB SAN架構存儲以及4x Infiniband全線速網絡、千兆作業調度管理網絡等構成。 南京大學高性能計算中心系統架構圖 據周老師介紹,全套系統由402片HS22刀片億恩科技服務器構成,每節點12GB內存,2顆英特爾至強5500系列處理器(主頻2.66GHz,8MB Cache),20Gb Infiniband HCA卡。其中有10片HS22刀片億恩科技服務器用作登陸節點,每節點24GB內存,4Gb光纖卡,20Gb Infiniband以及千兆網卡。另有30臺刀片機箱與上述計算節點配套,擁有16口Infiniband交換模塊、六口千兆交換機和兩個百兆管理網口。 存儲和管理方面,南大高性能計算中心選擇了20臺IBM x3650做存儲節點,每節點配置32GB內存,20Gb Inifiniband卡,6塊450GB 15000轉SAS盤,共54TB組成并行存儲系統,連續讀寫I/O大于每秒6GB。另有一臺IBM DS3000 SAN架構官仙共享存儲系統共128TB容量容量,配備16GB Cache,兩個8口光纖卡,連續讀寫帶寬大于每秒2GB。此外,還有一臺x3550用作集群管理監控節點,3臺x3650用作管理和作業調度節點。 網絡交換方面,周老師介紹說他們采用了兩臺288口20Gb 4x Infiniband交換機(當時還沒有成熟的40Gb Infiniband交換設別),組成全線速無阻塞并行計算網絡。此外還有四臺4口萬兆上行48口BNT的交換機用作作業調度和管理。 ▲南京大學高性能計算系統邏輯架構圖 對于刀片億恩科技服務器的散熱和供電是重中之重,南大高性能計算中心采用了4臺90千瓦制冷量的艾默生LibertPex機房精密空調,120千瓦UPS擁有96節湯式100AH電池,可在斷電的情況下維持數據中心1小時時間,足夠工作負載暫停和系統正常關閉。此外,南京大學高性能中心還配備了三個配電柜,提供500KVA機房電力增容,一套七氟丙烷氣體消防滅火系統為機房提供消防保障。 走進高性能計算中心的機房,首先可以看到外側監控人員的坐席 通過監控軟件,外面的管理員可以輕松的了解目前設備的工作情況,包括溫度、供電、機房視頻監控等 周慶林老師向我們展示了管理平臺的功能之一:每天向手機發短信匯報目前機房的狀況,一旦遇到問題也會立刻發短信通知到指定的手機。 機房內是擺放整齊的機柜,可以看到上面用玻璃從機柜正中封死了機房后部和前部,這樣做的好處是隔絕了冷熱通道——空調的冷風從下面(架高60cm)送到前部,被機柜風扇吸入排出到后面直接送給空調。封死之后冷熱通道徹底隔絕,大大提升了散熱效率。 打開機架,可以看到IBM HS22刀片億恩科技服務器,這個機柜比較特殊,可以看到上面的那個刀片機箱只插了10個刀片——這既是我們前文提到的管理登陸節點,而下面和旁邊的其他刀片則插滿了14個計算刀片 IBM x3650億恩科技服務器用作并行存儲,為實時計算的數據調用提供了一個緩沖(前端是刀片,后端是SAN) IBM DS3000 SAN負責后端存儲 兩臺288口20Gb 4x Infiniband交換機 如此多的Infiniband連接線,碼放的非常整齊 機房的消防設施 七氟丙烷滅火系統的儲氣罐——有毒,可窒息 96組UPS電池柜一角 本文出自:億恩科技【www.laynepeng.cn】 |