大部分計(jì)算材料和計(jì)算化學(xué)程序?qū)儆谟?jì)算密集型和訪存密集型應(yīng)用,對(duì)處理器的浮點(diǎn)運(yùn)算能力和內(nèi)存性能要求很高。
需求分析
大部分計(jì)算材料和計(jì)算化學(xué)程序?qū)儆谟?jì)算密集型和訪存密集型應(yīng)用,對(duì)處理器的浮點(diǎn)運(yùn)算能力和內(nèi)存性能要求很高。對(duì)于典型的物理化學(xué)應(yīng)用,計(jì)算節(jié)點(diǎn)推薦使用雙路服務(wù)器,根據(jù)CPU型號(hào)不同,每個(gè)計(jì)算節(jié)點(diǎn)提供16~40處理器核心,平均每個(gè)核心可以配置2~4 GB內(nèi)存。對(duì)于ADF、VASP、Gaussian等以O(shè)penMP共享式內(nèi)存并行方式為主的并行程序,推薦采用計(jì)算核心較多和內(nèi)存較大的SMP胖節(jié)點(diǎn),可以達(dá)到最佳的性能加速比。大部分物理化學(xué)軟件都是MPI并行程序,并行加速比較好,通??梢詳U(kuò)展到32~128進(jìn)程以上,程序運(yùn)行方式通常是跨節(jié)點(diǎn)并行運(yùn)行;從并行算法分析,計(jì)算材料軟件的進(jìn)程間通信比較頻繁,屬于通信密集型應(yīng)用。因此,節(jié)點(diǎn)間網(wǎng)絡(luò)的延遲和帶寬對(duì)程序的并行加速比起著決定性的作用。使用傳統(tǒng)的千兆以太網(wǎng)很難發(fā)揮程序的并行性能,跨節(jié)點(diǎn)運(yùn)行時(shí)會(huì)導(dǎo)致嚴(yán)重的性能下降,成為整個(gè)計(jì)算過程的瓶頸。因此,推薦用戶使用高帶寬、低延遲的InfiniBand網(wǎng)絡(luò)。
解決方案
上圖是典型的計(jì)算物理化學(xué)集群系統(tǒng)配置,系統(tǒng)具有優(yōu)異的性能和良好的擴(kuò)展性。
計(jì)算節(jié)點(diǎn)選用高密度服務(wù)器平臺(tái),2U雙路多節(jié)點(diǎn)服務(wù)器,滿足一般計(jì)算軟件和計(jì)算任務(wù)的需求;計(jì)算系統(tǒng)還可以根據(jù)需要配置幾臺(tái)四路或八路SMP胖節(jié)點(diǎn),專為 Gaussian等OpenMP并行程序或其它一些大內(nèi)存應(yīng)用配 ADF、VAS。
集群系統(tǒng)配置了兩臺(tái)服務(wù)器作為管理登錄節(jié)點(diǎn),兩臺(tái)登錄管理節(jié)點(diǎn)配置雙機(jī)熱備,對(duì)作業(yè)調(diào)度、用戶管理等系統(tǒng)服務(wù)實(shí)現(xiàn)雙保險(xiǎn),提高整個(gè)集群的高可用性; 計(jì)算網(wǎng)絡(luò)采用高帶寬、低延遲的FDR InfiniBand網(wǎng)絡(luò),為并行程序提供無阻塞的通信高速通道;另外,配置一套或兩套千兆網(wǎng)絡(luò),用于集群管理和監(jiān)控,千兆網(wǎng)絡(luò)也可作為備用計(jì)算網(wǎng)絡(luò),提高系統(tǒng)的高可用性; 存儲(chǔ)系統(tǒng)采用磁盤陣列,提供了海量數(shù)據(jù)存儲(chǔ)能力的同時(shí),其創(chuàng)新的RAID 級(jí)別提供了更高的數(shù)據(jù)保護(hù)功能。強(qiáng)大的硬件設(shè)計(jì),靈活的擴(kuò)展操作和友好的管理界面,為客戶不同應(yīng)用提供簡(jiǎn)單方便的解決方案。
方案優(yōu)勢(shì)
高性能
本方案選擇了業(yè)界領(lǐng)先的高密度機(jī)架服務(wù)器,采用最新的Sancdy Bridge處理器架構(gòu),計(jì)算網(wǎng)絡(luò)使用56Gb的FDR Infiniband,非常適合計(jì)算物理、計(jì)算化學(xué)這樣的計(jì)算密集型和通信密集型應(yīng)用;大容量、高性能、高容錯(cuò)、高可擴(kuò)展性的分布式并行存儲(chǔ)系統(tǒng)為集群提供了強(qiáng)大的存儲(chǔ)支持。
高可靠性
冗余電源,熱插拔硬盤,高可靠的服務(wù)器存儲(chǔ)系統(tǒng)等設(shè)備和技術(shù)保證系統(tǒng)的可靠穩(wěn)定運(yùn)行;雙登錄管理節(jié)點(diǎn)、備用計(jì)算網(wǎng)絡(luò)、存儲(chǔ)系統(tǒng)的高容錯(cuò)技術(shù)為集群的提供了更高的可靠性;
可擴(kuò)展性
系統(tǒng)設(shè)計(jì)為用戶預(yù)留了自由的可擴(kuò)展空間,用戶可根據(jù)業(yè)務(wù)系統(tǒng)的增長(zhǎng),靈活地增配計(jì)算節(jié)點(diǎn),擴(kuò)充計(jì)算網(wǎng)絡(luò),提升計(jì)算性能;擴(kuò)充存儲(chǔ)系統(tǒng)的容量和性能,滿足增長(zhǎng)的數(shù)據(jù)存放和IO性能需求。
綠色節(jié)能
集群選用設(shè)備均關(guān)注綠色節(jié)能,選取低功耗部件,采用專業(yè)的散熱設(shè)計(jì),避免不必要的能耗損失;智能功耗控制系統(tǒng)能夠根據(jù)集群負(fù)載實(shí)時(shí)調(diào)整整個(gè)系統(tǒng)功耗,在不影響集群性能的情況下,實(shí)現(xiàn)20%節(jié)能,真正實(shí)現(xiàn)綠色高效能計(jì)算。