20世紀后半期,全世界范圍掀起第三次產業(yè)革命的浪潮,人類開始邁入后工業(yè)社會——信息社會。在信息經濟時代,其先進生產力及科技發(fā)展的標志就是計算技術。時至今日,計算科學,尤其是以超級計算機(或高性能計算機)為基礎的計算科學已經與理論研究、實驗科學相并列,成為現(xiàn)代科學的三大支柱之一。
現(xiàn)代超級計算基于先進的集群技術構建,即常說的網格計算技術(GridComputing)。網格計算是伴隨著互聯(lián)網發(fā)展起來的,專門針對復雜科學計算的新型計算模式。這種計算模式利用互聯(lián)網把分散在不同地理位置的電腦組織成一個虛擬的“超級計算機”,其中每一臺參與計算的計算機就是一個“節(jié)點”,而整個計算是由成千上萬個“節(jié)點”組成的“一張網格”,所以稱之為網格計算。這種“超級計算機”有兩個優(yōu)勢,一個是數(shù)據(jù)處理能力超強,另一個是能充分利用網上的閑置處理能力。實際上,網格計算是分布式計算(DistributedComputing)的一種。需要說明的是,網格計算是一種傳統(tǒng)的、更加專業(yè)化的定義方式,而超級計算則是更加通俗化的概念。兩者從本質上是一致的。
超級計算中心(即超算中心)是指基于超級計算機系統(tǒng)對外提供計算資源、存儲資源以及技術咨詢等服務的機構或單位。超級計算在一個國家的發(fā)展中,特別是一些尖端科技的發(fā)展中,發(fā)揮著不可替代的作用,生物科技、石油勘探、氣象預報、國防技術、工業(yè)設計、城市規(guī)劃等經濟、社會發(fā)展的關鍵領域都離不開超級計算。各個國家,尤其是經濟、科技水平比較發(fā)達的國家,都把促進超級計算的發(fā)展作為重要的規(guī)劃內容。
超級計算與云計算
如本刊前文所述,云計算是一種將全球范疇、高度可擴展、靈活的服務通過互聯(lián)網進行發(fā)布與消費,采取按需求和實際使用付費的商業(yè)模式。云計算代表著全新的價值:它可以讓企業(yè)獲得高度可擴展和靈活的互聯(lián)網服務;SaaS的瘦客戶端應用減輕了軟件的采購和維護成本;所有的功能都以服務的方式提供給用戶。
云計算是從網格計算演化而來,能夠隨需應變地提供資源。網格計算可以在云中,也可能不在,這取決于什么樣的用戶在使用它。如果用戶是系統(tǒng)管理員和集成商,他們就會關心如何維護云,如升級、安裝和虛擬化服務器與應用程序等;如果用戶是消費者,就不必關心系統(tǒng)是如何運行的。
網格計算與云計算有很多相似之處,兩者都能夠被看成是分布式計算所衍生出來的概念,都是為了讓IT資源能夠對用戶透明,為了讓IT資源能夠達到更好的使用率。從這個提高資源利用率的角度出發(fā),逐漸誕生了WEB服務的概念。網絡公司通過部署數(shù)以萬計的服務器構成龐大的計算資源,得以提供此前無法完成的新服務。企業(yè)或者個人能夠通過互聯(lián)網利用那些大網絡公司所釋放出來的計算資源,進行應用部署或者向外提供服務。這就是從網格計算到云計算的歷史過程。網格計算和云計算的意義就在于:無論是用戶還是企業(yè)開發(fā)者,都能夠通過互聯(lián)網來獲得數(shù)據(jù)或者進行計算,盡管本地資源有限,但是能夠通過網絡進行復雜的運算,其數(shù)據(jù)的計算過程對于用戶來說就像互聯(lián)網網絡對于本地網絡用戶一樣。
1. 超級計算與云計算的相同點
從定義上來說,網格計算和云計算都試圖將各種IT資源看成一個可以對外提供相應服務的虛擬資源池。云計算試圖讓“用戶透明地使用資源”,而網格計算誕生的初衷就是“使用IT資源像使用水電一樣簡單”。
云計算是一種寬泛的概念,它允許用戶通過互聯(lián)網訪問各種基于IT資源的服務,并且用戶無需了解底層IT基礎設施架構就能夠享受到作為服務的“IT相關資源”。而網格的內涵包括兩個方面,一方面是所謂的效用計算或者隨需計算,在這一點上,網格計算跟云計算是非常相似的,都是通過資源池或者分布式的計算資源來提供在線的計算、存儲等服務;另外一方面就是所謂的“虛擬超級計算機”,以松耦合的方式將大量的計算資源連接在一起,提供單個計算資源所無法完成的超級計算能力。從對外提供服務這一角度來看,網格計算跟云計算是非常類似的。
2. 超級計算與云計算的不同點
可以看出,網格計算和云計算有相似之處,特別是計算的并行與合作的特點。但他們之間的區(qū)別也是明顯的。主要有以下幾點:
l網格計算的思路是聚合分布資源、支持虛擬組織、提供高層次的服務,例如分布協(xié)同科學研究等。而云計算的資源相對集中,主要以數(shù)據(jù)中心的形式提供底層資源的使用,并不強調虛擬組織(VO)的概念;
l網格計算的初衷是用聚合資源來支持挑戰(zhàn)性的應用,因為高性能計算的資源不夠用,需要把分散的資源聚合起來。2004年以后,適應普遍的信息化應用被逐漸強調。而云計算從一開始就支持廣泛企業(yè)計算、WEB應用,普適性更強;
l 在對待異構性方面,二者的理念有所不同。網格計算用中間件屏蔽異構系統(tǒng),力圖使用戶面向同樣的環(huán)境,把處理異構部件的困難留給中間件來完成。而云計算實際上承認異構,用鏡像執(zhí)行,或者提供服務的機制來解決異構性問題。當然不同的云計算系統(tǒng)會存在差別,如Google一般用自己內部的專用平臺來支持。
總之,云計算是以相對集中的資源,運行分散的應用(大量分散的應用在若干大的中心執(zhí)行);而網格計算則是聚合分散的資源,支持大型集中式應用(一個大的應用分到多處執(zhí)行)。但從根本上來說,從應對Internet應用的特征來說,他們是一致的:為了完成在Internet情況下支持應用、解決異構性、資源共享等問題。
超級計算的分類
隨著超級計算的不斷發(fā)展,逐漸出現(xiàn)了新的應用。新應用在豐富了傳統(tǒng)的網格計算種類的同時,也給網格計算帶來了新的挑戰(zhàn)。
從網絡的角度,將超級計算分為三大類:并行信息處理、分布式I/O處理和并行文件處理。
1. 并行信息處理
并行信息處理指的是在所有計算節(jié)點并行執(zhí)行應用,主節(jié)點管理各計算節(jié)點的輸入處理,節(jié)點之間信息高速交互,通過“等-停”機制保證信息交互時序的正確性。通常是在追求最高計算性能的定制計算環(huán)境。這類應用就是通常所說的科學計算,包括:氣候模型,材料科學,生物系統(tǒng)模型,核模擬和人工智能等等。
這類應用的共同特點是對信息交互時延極敏感。對網絡的要求是高帶寬、低時延(Top500高端計算應用IPC時延<10us)。
2. 分布式I/O處理
分布式I/O處理指的是客戶端請求通過主節(jié)點發(fā)送到所有計算節(jié)點進行并行處理,各節(jié)點的結果直接返回主節(jié)點,由主節(jié)點響應給客戶端。時延要求不苛刻,但是所有計算節(jié)點以最快速度響應主節(jié)點,使得主節(jié)點網絡位置短時會產生較大突發(fā)流量。這類計算的典型應用就是網站搜索引擎。有信息顯示:Google每天需要提供1.5億次查詢服務,平均每毫秒發(fā)生1.736次查詢。舉例來說,搜索“高性能計算”,得到3,250,000結果,用時0.20秒(第二次再搜0.05秒)。
這類應用的共同特點是對網絡丟包敏感。對網絡的要求是高帶寬、不丟包。對設備帶寬、包緩存大小及分配方式有要求,與應用的具體規(guī)模(服務器數(shù)量等)相關。
3. 并行文件處理
并行文件處理指的是將龐大的源數(shù)據(jù)文件通過主節(jié)點分割成多個小文件后,分發(fā)到各計算節(jié)點并行處理,處理完畢后返回主節(jié)點進行文件組裝。這類計算的典型應用就是動漫渲染和影視動畫制作。將影視文件有機分割,分發(fā)到集群內相應服務器進行渲染等工作,各部分完成后返回組合成新的文件。
這類應用的特點是節(jié)點之間信息交互少,但都是以大文件的形式完成。網絡流量很大,且存在很強的并發(fā)性。對網絡的要求是高帶寬互聯(lián)。
超級計算中心網絡安全解決方案
1. 超級計算在云計算中的部署方案
超級計算可以作為云計算的一種業(yè)務對Internet用戶提供便捷的服務。從這個角度來看,超算中心可以作為云計算數(shù)據(jù)中心的一個部分。但是超級計算與云計算仍有較大區(qū)別,因此需要看作是特殊的云計算服務。超級計算作為“聚合”業(yè)務,是一種特殊的服務器集群應用。這種應用要求服務器自成系統(tǒng),具體表現(xiàn)在:
l集群系統(tǒng)不能出現(xiàn)異構現(xiàn)象;
l集群內部的通信服務質量要求非常高,因此不能與其他業(yè)務共享業(yè)務通道;
l集群系統(tǒng)的安全級別很高,從接入區(qū)開始一直到超算區(qū),要求與其他系統(tǒng)保持物理或邏輯隔離;
l 集群節(jié)點的計算性能要求較高,一般不會出現(xiàn)虛擬機。因此,集群內部的通信流量并不會很大。
綜合各種需求,可以將超級計算中心和云計算數(shù)據(jù)中心的網絡進行融合,進而對外提供統(tǒng)一的解決方案。如圖1所示,將超級計算服務作為云計算一個獨立的區(qū),保證超級計算端到端的安全隔離,并在超級計算區(qū)內實現(xiàn)統(tǒng)一交換架構。該方案重點強調性能、安全、可靠和易用性設計。
圖1超級計算中心網絡安全解決方案組網
2. 超級計算組網方案的高性能設計
由于Infiniband具有高帶寬、低時延轉發(fā)的特點(通?梢缘陀10us,甚至達到納秒級),傳統(tǒng)的超級計算網絡通常采用其進行組網。隨著以太網的發(fā)展,以太網已在超級計算中心的網絡中廣泛應用。在高性能計算區(qū)域(HPC)TOP500集群中,采用千兆以太網的用戶數(shù)量是采用InfiniBand集群用戶數(shù)量的兩倍。
千兆以太網計算集群的優(yōu)勢是成本較低,但萬兆以太網計算集群的性能遠高于千兆。新一代萬兆以太網網卡可以將服務器之間延遲降低到千兆網絡延遲的八分之一,同時帶寬獲得更高的提升,幾乎與InfiniBand速度不相上下。以H3C數(shù)據(jù)中心級交換機S12500為例,根據(jù)最新的Spirent測試報告顯示,其萬兆端口轉發(fā)時延6~14us(盒式萬兆交換機的轉發(fā)時延更低)。除了轉發(fā)時延有大幅度降低之外,數(shù)據(jù)中心級交換機還能夠提供超高密度的萬兆接入端口,可以實現(xiàn)大量計算節(jié)點的高密度接入,有效的降低成本。
近年來隨著萬兆以太網成本逐漸降低,高性能集群升級到萬兆以太網將會有效的提高計算集群的性價比。另外,萬兆以太網每Gb的端口功耗比千兆以太網的要低,使得用戶獲得10倍帶寬的同時又降低了能耗。
3. 超級計算組網方案的高安全設計
安全設計方案可以分為安全分區(qū)規(guī)劃以及端到端的安全部署兩部分。如圖2所示。
在超算中心網絡中,存在不同業(yè)務種類的設備且易受攻擊程度不同。根據(jù)這些業(yè)務種類和設備情況可制定不同的安全策略和信任模型,將超算網絡劃分成不同區(qū)域,區(qū)域之間實現(xiàn)邏輯隔離,重點保證高性能計算區(qū)域(HPC)的數(shù)據(jù)安全和流量服務。
針對不同級別、不同業(yè)務的用戶實施端到端的安全部署,從接入終端一直到超算中心最終的服務器,都能一直保持邏輯隔離的狀態(tài)。通過端到端的安全隔離進一步加強超算中心核心業(yè)務的數(shù)據(jù)中心安全性和服務質量。
圖2超級計算組網方案的端到端安全設計
4. 超級計算組網方案的高可靠設計
采用網絡虛擬化技術將實現(xiàn)高可靠性要求,可實現(xiàn)分布式設備管理、分布式路由和跨設備鏈路聚合,部署虛擬化除了提高超算中心網絡的可用性,減少單點故障影響,同時無需再考慮MSTP、VRRP等協(xié)議,解決了傳統(tǒng)設備和鏈路只能工作在主/備模式和利用率低于50%的性能瓶頸。
因此,通過部署網絡虛擬化技術,可以有效地將超算業(yè)務的網絡可靠性提高一個級數(shù),極大的保證用戶業(yè)務的連續(xù)性。同時,超算中心網絡的性能將以倍數(shù)級別靈活擴展,增強可靠性,簡化配置,降低投入和維護成本。
5. 超級計算組網方案的易用性設計
傳統(tǒng)的超算中心網絡結構異構復雜,接口不統(tǒng)一:前端網和管理網采用以太網;存儲網采用FC;計算網用Infiniband。這導致超算中心運行時協(xié)議轉換開銷大、速率不匹配、存在性能瓶頸、開發(fā)與部署周期長、無法滿足業(yè)務快速靈活部署和性能需求的問題。
圖3超算中心一體化網絡
超算中心網絡易用性解決方案就是一體化網絡設計方案,通過CEE(增強以太網)技術和標準IP協(xié)議融合前端、計算、存儲和管理四張網絡,消除網絡技術割裂所來的種種弊端?梢杂行У暮喕W絡層次、輕松部署、降低TCO。
結束語
云計算是從網格計算演化來的,但并不等同于網格計算。網格計算(尤其是大規(guī)模的網格計算)對于網絡的要求很高。超算中心網絡設計方案需要滿足不同類型的超級計算的需求,必須能極大的提高超級計算的性能、可靠性、易用性和安全等方面的指標。