1、計(jì)劃和設(shè)計(jì):為了成功地計(jì)劃和設(shè)計(jì)一個(gè)HPC底層結(jié)構(gòu),第一步應(yīng)該是“透視表面之下”。簡單地理解,就是首先要找出投入HPC建設(shè)的主要理由,對(duì)HPC設(shè)備的需求,就像是很多商業(yè)客體都應(yīng)該對(duì)投資和利潤有清晰的目標(biāo)。這方面的考慮在今天比以往任何時(shí)候都明顯,因?yàn)镠PC系統(tǒng)的使用量,特別是在研究和發(fā)展領(lǐng)域比過去4年就有了70%的穩(wěn)固增長(數(shù)據(jù)來自primeur)。先不看HPC技術(shù)的巨大發(fā)展,它自身類型的增長就是驚人的。這種增長的原因之一或許是復(fù)雜性,不只在設(shè)計(jì)方面,還在消耗方面。加拿大安大略省的HPC研究機(jī)構(gòu)SHARCNET ,圍繞HPC技術(shù)的采用和實(shí)施建立了一項(xiàng)長遠(yuǎn)的計(jì)劃。根據(jù)他們的報(bào)告,設(shè)計(jì)HPC的所遇到的挑戰(zhàn)是“它對(duì)大量不同的研究者來說都是可能的技術(shù)”。這體現(xiàn)了HPC在復(fù)雜性和多樣性之外的本質(zhì)。
2、分析設(shè)計(jì)硬件:當(dāng)考慮計(jì)劃和設(shè)計(jì)一個(gè)HPC底層實(shí)現(xiàn)的時(shí)候,我曾經(jīng)對(duì)這個(gè)領(lǐng)域的一些人說過,我作為一個(gè)從業(yè)10余年的系統(tǒng)架構(gòu)師,有一些經(jīng)驗(yàn)和想法,我所考慮的關(guān)鍵領(lǐng)域包括如下:
a)設(shè)備考慮(Rackspace, Power and Cooling機(jī)位,電源,制冷設(shè)備):如果要問任何一個(gè)企業(yè)層數(shù)據(jù)中心管理員,讓他最頭疼的10件事情是什么,他一定會(huì)說是“rackspace, power and cooling”。更深入考慮,你就會(huì)發(fā)現(xiàn),在任何數(shù)據(jù)中心,Colocation(可以使用的機(jī)位)的數(shù)量都是固定的。這意味著,以每個(gè)u(rackspace的計(jì)算單位)計(jì)算,在每個(gè)colocation上的rackspace是非常珍貴的。而且在這些小型即插即用的服務(wù)器電路板上布置那么多密集芯片集也就帶來了電源和制冷設(shè)備的挑戰(zhàn)。
注釋——在每個(gè)rank,相比10多年前,你需要更多的出口和更多的氣流,同時(shí)還有4、5u的服務(wù)器占據(jù)整個(gè)rank。
b)物理設(shè)施計(jì)劃:引用HPC領(lǐng)袖Frank Chism說的一句話“我不能不強(qiáng)調(diào)在HPC部署中物理設(shè)施計(jì)劃的重要性。這件事情就像要想很好地管理和設(shè)計(jì)布線,就要首先考慮好房間和通路。HPC使用僅比SAN稍少的電纜線數(shù),同時(shí),還要注意地板的承重量,空氣流通性,足夠的電力。最后,千萬千萬不要忘記帶外管理。深層的底層地板確實(shí)能夠幫助電纜布線?!?/P>
注釋——有效的HPC性能來自于有效的HPC設(shè)計(jì),它不僅包括軟件部分,也包括很多硬件設(shè)施。這些硬件設(shè)施不單指芯片設(shè)計(jì),還包括在地板之下的布線設(shè)計(jì)。
c)硬件和處理機(jī)設(shè)計(jì):硬件和處理機(jī)體系結(jié)構(gòu)的設(shè)計(jì)關(guān)系到HPC的性能(這是HPC的核心和靈魂)。在HPC體系結(jié)構(gòu)之上加上能源有效的硬件就等于是增強(qiáng)了普通計(jì)算能力,也就相當(dāng)于建立了一個(gè)HPC底層結(jié)構(gòu)。在這方面所展現(xiàn)出來的優(yōu)勢就是更快的數(shù)據(jù)訪問和增強(qiáng)的指令。“性能”這個(gè)詞重復(fù)貫穿整個(gè)主題,這是因?yàn)椤靶阅堋本褪荋PC所關(guān)心的,就是減少數(shù)據(jù)計(jì)算周期的能力。這方面需求核心的一部分是選擇適合的硬件和處理機(jī)規(guī)格。
3、實(shí)現(xiàn)HPC工具和軟件:就像其他硬件,HPC集群就是一些軟件和工具通過底層結(jié)構(gòu)來運(yùn)行,進(jìn)行計(jì)算,產(chǎn)生結(jié)果??紤]一些核心的HPC工具和軟件,下面是我的想法:
a)建立和部署系統(tǒng):建立一個(gè)HPC集群,使問題回到了我第一部分提到的——你想用它來干什么?盡管有很多方式和方法允許你驅(qū)動(dòng)一個(gè)HPC系統(tǒng)的軟件和安裝,但底線是,這很大程度上取決于你規(guī)劃的這個(gè)HPC集群的組成部件有哪些。我們來一起關(guān)注一些現(xiàn)有的HPC軟件和部署工具,比較流行的很少,如SCALI和HP-MPI。這些軟件包為管理一個(gè)HPC集群提供部署,監(jiān)測和任務(wù)調(diào)度服務(wù),比如IBM的CSM軟件。而開源軟件有Maui和Torque,它們就像是任務(wù)調(diào)度程序和資源管理程序那樣來管理計(jì)算節(jié)點(diǎn)和集群。Platform Rocks是另一套軟件,它允許安裝和綜合第三方應(yīng)用程序。
b)平行的文件系統(tǒng):引用Wikipedia的描述“分布式平行文件系統(tǒng)可以從多個(gè)服務(wù)器平行獲得數(shù)據(jù),以此達(dá)到高性能。一些分布式平行文件系統(tǒng)使用OSD(目標(biāo)存儲(chǔ)設(shè)備,在Lustre叫做OST)和集中的元數(shù)據(jù)服務(wù)器來同時(shí)獲得大塊數(shù)據(jù),例如,UCSC的Ceph分布式文件系統(tǒng);CFS的Lustre文件系統(tǒng)以及PVFS,PVFS2?!?/P>
深入考慮: 根本地說,平行文件系統(tǒng)是那些通過平行達(dá)到高帶寬的文件的全球命名空間。這種帶寬有三維:高聚集帶寬,高單一數(shù)據(jù)流帶寬,和每秒的高元數(shù)據(jù)操作。似乎還沒有人能夠在所有這三維上都達(dá)到高性能。不要忘記數(shù)據(jù)量是如此巨大,做備份是主要保證,因此,也需要可靠性。而且,似乎還沒有人能夠?qū)崿F(xiàn)一個(gè)平行文件系統(tǒng)可以很好地為短期I/O操作實(shí)現(xiàn)高速度數(shù)據(jù)傳輸。
c)成倍處理能力的網(wǎng)絡(luò):實(shí)現(xiàn)HPC最后要考慮的通常是HPC需要有成倍處理能力的網(wǎng)絡(luò)。例如,如果一個(gè)網(wǎng)絡(luò)不能處理如此大的帶寬,那么即使有一個(gè)平行文件系統(tǒng)可以在每秒發(fā)送十億字節(jié)數(shù)據(jù)到一個(gè)節(jié)點(diǎn)也是徒勞的。
所以,總結(jié)地說,在建立HPC底層結(jié)構(gòu)中我們學(xué)習(xí)到的知識(shí)是:
◆全面的理解為什么要投資HPC和我們期望的成果是什么
◆深層理解HPC核心硬件以及設(shè)計(jì)組件
◆為確保有充足的布線和底層地板空間,需要考慮的設(shè)備和物理設(shè)施
◆基于軟件和工具集的HPC設(shè)計(jì)
◆理解三維帶寬
◆為了所需的帶寬,需要把“成倍處理能力網(wǎng)絡(luò)”的概念注入到節(jié)點(diǎn)設(shè)計(jì)中
原文鏈接:http://port25.technet.com/archive/2006/12/01/thinking-about-hpc-infrastructure.aspx


