高性能計算的發(fā)展

2016-09-26 by:CAE仿真在線來源:互聯(lián)網(wǎng)

摘要

繼理論科學(xué)和實驗科學(xué)之后,高性能計算成為人類科學(xué)研究的第三大范式。作為科技創(chuàng)新的重要手段,高性能計算廣泛應(yīng)用于核爆模擬、天氣預(yù)報、工程計算等眾多領(lǐng)域,是當代科技競爭的戰(zhàn)略制高點,集中體現(xiàn)一個國家的綜合實力。本文介紹高性能計算發(fā)展的歷史和現(xiàn)狀,分析當前高性能計算所面臨的問題和挑戰(zhàn),探討高性能計算未來的發(fā)展方向。

利用大量處理單元的聚合計算能力來解決復(fù)雜問題,是高性能計算(high performance computing,HPC)最直觀的定義。高性能計算已成為繼理論科學(xué)和實驗科學(xué)之后科學(xué)探索的第三范式,被廣泛應(yīng)用在高能物理研究、核武器設(shè)計、航天航空飛行器設(shè)計、國民經(jīng)濟的預(yù)測和決策、能源勘探、中長期天氣預(yù)報、衛(wèi)星圖像處理、情報分析、互聯(lián)網(wǎng)服務(wù)、工業(yè)仿真等領(lǐng)域,對國民經(jīng)濟發(fā)展和國防建設(shè)具有重要的價值。它作為世界高技術(shù)領(lǐng)域的戰(zhàn)略制高點,已經(jīng)成為科技進步的重要標志之一,同時也是一個國家科技綜合實力的集中體現(xiàn)。

本文介紹高性能計算的發(fā)展現(xiàn)狀,分析現(xiàn)在高性能計算面臨的挑戰(zhàn),探討中國高性能計算未來的發(fā)展方向。

高性能計算的發(fā)展現(xiàn)狀

高性能計算作為計算機科學(xué)的一個分支,致力于開發(fā)高性能計算機和運行在高性能計算機上的應(yīng)用軟件?；仡櫄v史,高性能計算作為一個強大的計算工具,與科學(xué)研究的發(fā)展密不可分。一方面,科學(xué)研究對計算能力永無止境的需求促進了高性能計算技術(shù)向前發(fā)展;另一方面,高性能計算技術(shù)的每一次巨大進步都為科學(xué)研究提供了全新的手段。

1)永無止境的計算需求

在近代科學(xué)研究中,單靠理論和實驗解決問題的難度逐漸增大,數(shù)值運算的方法被用來模擬物理世界,以求解復(fù)雜的問題,計算科學(xué)成為自然科學(xué)研究的必備工具。隨著求解問題規(guī)模的越來越大,對計算能力的需求成為驅(qū)動高性能計算發(fā)展最直接的動力。

第二次世界大戰(zhàn)時期,靠人力計算火炮的彈道非常困難,戰(zhàn)爭對計算能力的需要促進了第一臺電子計算機的誕生;早期的高性能計算機主要應(yīng)用于解決軍事領(lǐng)域的計算問題,如美國在1960年代使用CDC超級計算機進行彈道計算、火箭設(shè)計等工作[1]。20世紀90年代中期以后,隨著機群技術(shù)構(gòu)建的高性能計算機的普及,高性能計算的成本和編程的復(fù)雜度大幅度下降,為高性能計算的廣泛使用創(chuàng)造了條件。如圖1[2]所示,現(xiàn)在高性能計算已經(jīng)滲透到各個學(xué)科領(lǐng)域,不僅在氣候模擬、石油勘探、天體物理這些傳統(tǒng)應(yīng)用領(lǐng)域保持強勁的生命力,在生命科學(xué)、人工智能、大數(shù)據(jù)處理這些新興領(lǐng)域也有廣泛的應(yīng)用。

圖1 2014 年全球高性能應(yīng)用領(lǐng)域分布

在傳統(tǒng)應(yīng)用領(lǐng)域,如天氣預(yù)報、石油勘探、核爆模擬等,計算問題一般采用劃分網(wǎng)格的方式來解決,隨著應(yīng)用的物理建模不斷精細,數(shù)值模擬分辨率越來越高,對計算能力的要求也越來越高。以氣候模擬與天氣預(yù)報為例,建立模擬氣候變化的模型是一個非常有挑戰(zhàn)性的工作,它需要模擬巨量的實體間相互作用,同時還需要在不同的時間和空間維度上進行分析,一般使用數(shù)十億個非線性方程從不同的維度描述各種物理過程。如圖2[3]所示,現(xiàn)在比較成熟的全球氣候模擬模型一般采用100~200 km的網(wǎng)格,它對地形效應(yīng)、細粒度水文狀況的模擬能力很弱;最新出現(xiàn)的模型采用20~50 km的網(wǎng)格,在此分辨率下可以得到很大的改善,但需要強大得多的計算能力才能求解。如果將每個空間維度上的分辨率再提升1倍,則總的計算能力至少需要提升8倍。據(jù)分析,如果將模型的分辨率提升到1 km,則相應(yīng)的計算能力需要提升100~1000 倍,這需要未來將高性能計算機的計算能力由現(xiàn)在的P級升級為E級(1018)。

圖2 IPCC 評估報告中所使用氣候模型的空間分辨率

天氣預(yù)報一般采用更高級的對流解析有限域模型,在未來很長一段時間內(nèi),實現(xiàn)1 km 水平分辨率的對流運動模型是氣象領(lǐng)域的一項重要工作。高分辨率的模型可以直接地求解對流系統(tǒng)的問題,模擬結(jié)果可以更好的展示地形效應(yīng)、海洋大氣能力轉(zhuǎn)移過程,并且可以獲得更詳細的區(qū)域氣候情況。這些高分辨率的模擬結(jié)果能幫助我們更好地理解全球變暖對天氣的影響,同時可以利用對區(qū)域氣候的模擬來評估極端天氣事件對社會的影響。

激光聚變數(shù)值模擬對計算能力有著相似的需求。為了模擬內(nèi)爆過程中輻射流體力學(xué)界面不穩(wěn)定性的演化,100 個波長的模擬是最低的要求。對單模模型,每個波長至少需要10個網(wǎng)格,則單個方向需要1000個網(wǎng)格,三維模擬總共需要109個網(wǎng)格。對多模模型,為了分辨單個擾動模,每個波長需要50個網(wǎng)格,如果模擬200個波長,需要的網(wǎng)格總數(shù)約為1012個?[4]。當前,千萬億次計算機的CPU核數(shù)為104~105量級,勉強可滿足單模模型的需求,但模擬多模模型是目前千萬億次計算機難以承受的,計算能力至少需要有兩個量級的提升,需要更高性能的計算機。

在非傳統(tǒng)的新興應(yīng)用領(lǐng)域,如生命科學(xué)、人工智能、大數(shù)據(jù)處理,這些應(yīng)用的負載很多都是基于圖模型和圖算法來處理數(shù)據(jù),而復(fù)雜的圖結(jié)構(gòu)的規(guī)模非常龐大。例如,在娃娃魚基因組測序中,對應(yīng)De Brujin 圖有超過1013個頂點,測序技術(shù)的發(fā)展對計算能力的需求不斷提高。

深度學(xué)習(xí)是新興領(lǐng)域中另一個典型代表。深度學(xué)習(xí)技術(shù)試圖通過大規(guī)模的神經(jīng)網(wǎng)絡(luò)和大數(shù)據(jù)提供的海量訓(xùn)練集合,將大腦學(xué)習(xí)識別的過程加以抽象,從而獲得極高的識別準確度,這些都帶來了極大的計算需求和吞吐需求。在早期使用深度神經(jīng)網(wǎng)絡(luò)進行語音識別的模型中,擁有429個神經(jīng)元的輸入層,整個網(wǎng)絡(luò)擁有156 M個參數(shù),訓(xùn)練時間超過75天[5,6];人工智能和機器學(xué)習(xí)頂級學(xué)者Andrew Ng 和分布式系統(tǒng)頂級專家Jeff Dean 打造的Google Brain項目[7],用了包含16000個CPU核的并行計算平臺訓(xùn)練超過10億個神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò),在語音識別和圖像識別等領(lǐng)域取得了突破性的進展。如圖3[8]所示,如果模擬人類大腦的全腦級的神經(jīng)系統(tǒng),需要模擬1000億個神經(jīng)元,需要計算能力有數(shù)個數(shù)量級的提升。許多商用或開源系統(tǒng)如Caffe、Theano、TensorFlow 等相繼出現(xiàn),尤其是由谷歌開源的TensorFlow系統(tǒng),支持異構(gòu)設(shè)備分布式計算,可以靈活的從單個CPU/GPU擴展到數(shù)千個CPU/GPU組成的分布式系統(tǒng);深度學(xué)習(xí)的進步也促進了專用加速器的發(fā)展,例如中國科學(xué)院計算技術(shù)研究所陳云霽團隊所設(shè)計的寒武紀神經(jīng)網(wǎng)絡(luò)處理器,相對于x86指令集的CPU 有兩個數(shù)量級的提升,而面積和功耗只有其1/10。

圖3 腦模擬對高性能計算性能的要求

以上所列舉的各個學(xué)科對計算能力的需求有一些相似的特點:它們需要強大的計算能力來模擬更大規(guī)模的應(yīng)用,并同時增加應(yīng)用的分辨率,因此需要的計算能力要有幾個數(shù)量級的提升。按照推測,滿足這些應(yīng)用的未來計算機系統(tǒng)峰值性能在2020年至少應(yīng)該達到1 Eflop/s。

2)計算利器:高性能計算系統(tǒng)

高性能計算系統(tǒng)利用大量處理單元的聚合計算能力來滿足應(yīng)用巨大的計算需求,其關(guān)鍵問題是實現(xiàn)眾多計算節(jié)點的大規(guī)模集成和高效協(xié)同計算,核心技術(shù)涉及高性能計算機和大規(guī)模并行應(yīng)用程序。

(1)高性能計算機

自第一臺電子計算機ENIAC問世以來,以電子器件、系統(tǒng)結(jié)構(gòu)和計算模式的重大變革為標志,高性能計算機發(fā)展已經(jīng)歷經(jīng)三次大的發(fā)展階段(圖4)。

圖4 高性能計算機發(fā)展歷史

集成電路的發(fā)明推動了信息技術(shù)革命,1965 年,Intel 創(chuàng)始人Moore 提出集成電路的第一定律“摩爾定律”,即“集成電路上可容納的晶體管數(shù)目大約每隔18個月便會增加1倍,性能也提升1倍”[9]。摩爾定律完美預(yù)測了此后近50年通用微處理器的發(fā)展軌跡,但“摩爾定律”的提升速度不足以滿足快速增長的計算需求,體系結(jié)構(gòu)開始引領(lǐng)高性能計算機的發(fā)展,相繼出現(xiàn)了向量機、SMP、ccNUMA、MPP(massively parallel processing)和機群5種主要架構(gòu)。

“擴展性”和“成本”是推動體系結(jié)構(gòu)進步的兩個關(guān)鍵因素。從20世紀70年代中期到90年代初的接近20年時間里,向量機占據(jù)了高性能計算機的統(tǒng)治地位。雖然僅一條指令就可以處理整個向量,但向量化編程存在困難,加之全定制處理器高昂的成本,導(dǎo)致向量機遇到了瓶頸,基于通用微處理器構(gòu)建的共享存儲多處理器系統(tǒng)(SMP)逐漸成為主流。SMP集中式的共享機制導(dǎo)致了擴展性受到限制,帶有分布式特征的ccNUMA(支持cache 一致性的非一致訪存架構(gòu))被斯坦福大學(xué)提出,并在1991年完成了第一臺ccNUMA架構(gòu)的并行機Dash。ccNUMA 結(jié)構(gòu)延續(xù)了SMP的編程模型,苛刻的遠程訪存延遲需求決定了其難以實現(xiàn)大規(guī)模的擴展。

為了解決大規(guī)模擴展的問題,很快出現(xiàn)了MPP 體系結(jié)構(gòu),它可擴展到上萬個結(jié)點。其結(jié)點被分為計算結(jié)點和服務(wù)結(jié)點兩類,計算結(jié)點運行輕量級定制操作系統(tǒng),用于提供計算能力;服務(wù)結(jié)點運行完整操作系統(tǒng),為計算結(jié)點提供諸如文件系統(tǒng)、任務(wù)管理和I/O等服務(wù)。結(jié)點間以定制的高速網(wǎng)絡(luò)互連,采用基于消息傳遞的編程模型。因為MPP采用了專用部件,較高的構(gòu)建和維護成本成為它廣泛使用的限制因素。Cluster(機群)應(yīng)運而生,其節(jié)點和網(wǎng)絡(luò)均采用商業(yè)化的部件,制造和維護成本都很低,同時具備MPP 的高可擴展特性,迅速成為高性能計算機領(lǐng)域的主流。到2007年,世界Top 500榜單的系統(tǒng)就已經(jīng)完全被MPP和Cluster系統(tǒng)壟斷(圖5)。

圖5 高性能計算機體系結(jié)構(gòu)發(fā)展

但是到了2008 年左右,能耗問題制約了處理器主頻的大幅度提升,如果繼續(xù)采用當時主流的機群技術(shù)(曙光4000A,Top 500的第10名),實現(xiàn)千萬億次系統(tǒng)需要64000 個節(jié)點,占地近14000 m2(約兩個足球場),功耗約38MW(一個中等縣城的用電量)。為了突破系統(tǒng)規(guī)模、計算密度、系統(tǒng)能耗這三個因素的制約,采用通用處理器和加速器協(xié)同計算的異構(gòu)計算模式被提出,并成為系統(tǒng)性能提升的主要推動力,其中主流的加速器有GPGPU、眾核處理器和FPGA。由于加速器不需要執(zhí)行復(fù)雜的控制流,專注于浮點計算,因此它可以實現(xiàn)大量浮點計算部件的堆疊,峰值計算性能超過通用處理器數(shù)倍或數(shù)十倍,對一些特定應(yīng)用甚至可以實現(xiàn)上百倍性能的提升,極大提高了計算節(jié)點的效能比。在2015 年11 月發(fā)布的Top 500 排名中[10],使用加速器的系統(tǒng)提供的總性能達到榜單中計算機性能總和的1/3,新構(gòu)建的高性能計算機系統(tǒng)中,近1/2采用加速器,目前已有超過2/3的高端應(yīng)用代碼支持GPU優(yōu)化。

圖6是支持異構(gòu)計算的曙光高性能計算機結(jié)構(gòu)示意,其高密度異構(gòu)計算刀片節(jié)點可以繼承大量高性能異構(gòu)計算部件,節(jié)點間采用大規(guī)?；ミB網(wǎng)絡(luò)連接,并配以海量存儲系統(tǒng)。中國的曙光6000(星云)和天河1號系統(tǒng)分別使用了NVIDIA和ATI公司的GPU作為加速器,在2010年先后獲得了世界高性能計算機Top 500榜單的第二和第一名,采用Intel Xeon Phi眾核加速器的天河2號系統(tǒng)自2013年就一直保持著世界第一的排名。

圖6 曙光系列高性能計算機組成結(jié)構(gòu)示意

2015年美國總統(tǒng)奧巴馬簽署推出“國家戰(zhàn)略計算計劃”(NSCI)的行政命令來支持高性能計算機的繼續(xù)發(fā)展,目標建造計算峰值達到百億億次的高性能計算機,也就是E級計算機系統(tǒng)[11]。中國也啟動了在“十三五”期間建造E級系統(tǒng)的計劃。異構(gòu)計算模式將是達到E級計算能力的必由之路,這一點國際上已經(jīng)達成共識;由于系統(tǒng)功耗限制(功耗墻),E級系統(tǒng)之后,僅借助當前的異構(gòu)計算模式難以再實現(xiàn)大幅性能提升(圖4)。人們寄希望于計算原理的突破來開啟高性能計算機的下一個大發(fā)展階段,量子計算、光計算和DNA計算都是這一方向的研究熱點。2013年美國谷歌、NASA和大學(xué)空間研究聯(lián)合會購買了D-Wave 公司的“D-Wave Two”量子計算機,成為量子計算產(chǎn)業(yè)化的標志性事件。但量子計算機仍處于探索階段,存在大量結(jié)構(gòu)和算法問題,短期內(nèi)難以規(guī)模產(chǎn)業(yè)化。

(2)基礎(chǔ)算法庫和并行應(yīng)用軟件

高性能計算機的峰值性能不等同于應(yīng)用軟件運行時的實際性能,它們之間往往存在巨大的鴻溝。以稀疏矩陣類應(yīng)用為例,SpMV(稀疏矩陣乘法)的浮點性能通常不超過峰值性能的10%,在GPU眾核處理器上的浮點效率甚至低于2%。要發(fā)揮高性能計算機的高速硬件優(yōu)勢,必須要有適用的算法和調(diào)優(yōu)的應(yīng)用程序來實現(xiàn)數(shù)百萬核之間的并行。因此,大規(guī)模并行軟件和高性能算法的發(fā)展水平象征著各個國家高性能計算的軟實力。

現(xiàn)在大規(guī)模并行軟件在各個領(lǐng)域發(fā)揮著重要作用,知名的有:大氣領(lǐng)域的WRF、計算化學(xué)的Gaussian、流體力學(xué)的Fluent、LS-Dyna等。美國和日本是高性能并行軟件強國,高性能計算領(lǐng)域最高獎項“戈登·貝爾獎”20多年來一直被美國和日本壟斷;歐洲同樣非常注重應(yīng)用軟件的研發(fā),計算化學(xué)的ADF、MOLPRO、分子模擬的GROMACS、材料計算的VASP 在世界范圍廣泛使用。大規(guī)模并行應(yīng)用軟件的發(fā)展都與國家巨額投入息息相關(guān),美國能源部(DOE)在硬件上的花費不到總投資的1/6,大部分預(yù)算都花在了物理建模、算法研究和軟件研制方面。

國內(nèi)則更重視有顯示度的高性能計算機硬件的研制,對應(yīng)用軟件的投入欠缺,且缺乏整體計劃,雖然也開發(fā)了數(shù)個幾十萬核、乃至百萬核的大規(guī)模應(yīng)用,但多局限于對于計算數(shù)據(jù)的測試、算法程序的并行優(yōu)化等基本的輔助性操作。

大規(guī)模并行應(yīng)用程序的核心是基礎(chǔ)算法模塊,許多科學(xué)問題的解決高度依賴于基礎(chǔ)算法與可計算建模的發(fā)展水平。高效的基礎(chǔ)算法和滿足實際精度要求的可計算模型可以顯著降低計算復(fù)雜度和計算量,提高利用計算機解決科學(xué)與工程問題的能力。例如,著名的高性能數(shù)學(xué)庫BLAS、ScaLAPACK和FFTW 等在提高大量應(yīng)用性能上發(fā)揮了關(guān)鍵性作用。2012年3月美國能源部發(fā)布了題為“Report on the extreme-scale solvers: Transition to future architectures”的報告,指出在CPU核數(shù)為10萬量級的計算機上,稀疏線性解法器在很多復(fù)雜應(yīng)用數(shù)值模擬中占了90%的時間;在核爆模擬和激光聚變等很多數(shù)值模擬應(yīng)用中,稀疏線性解法器也同樣消耗了絕大部分運行時間。美國能源部“
先進計算促進科學(xué)發(fā)現(xiàn)(SciDAC)”項目在最新發(fā)布的第3期計劃中,成立了FASTMath(Frameworks,Algorithms, and Scalable Technologies for Mathematics)研究小組作為第一批啟動的重點內(nèi)容,其目標是面向?qū)嶋H復(fù)雜應(yīng)用的大規(guī)模數(shù)值模擬,發(fā)展可擴展的共性算法和使能技術(shù),最終形成高性能數(shù)學(xué)工具箱,包括了13個具有共性的軟件包。

北京應(yīng)用物理與計算數(shù)學(xué)研究所和中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院分別研制了JASMIN框架和PHG平臺,面向科學(xué)計算領(lǐng)域中的自適應(yīng)結(jié)構(gòu)網(wǎng)格和非結(jié)構(gòu)網(wǎng)格數(shù)值模擬應(yīng)用,它們將科學(xué)計算中現(xiàn)有的很多共性算法集成,并封裝形成共性層模塊,支撐數(shù)值模擬應(yīng)用(如激光聚變、油藏和電磁場)在國產(chǎn)高性能計算機上的發(fā)展。

在互聯(lián)網(wǎng)領(lǐng)域,大數(shù)據(jù)處理應(yīng)用也存在共性基礎(chǔ)模塊。例如,數(shù)據(jù)挖掘中大量采用的線性代數(shù)解法器、網(wǎng)頁排序算法PageRank屬于典型的稀疏線性迭代方法。在社交網(wǎng)絡(luò)分析、系統(tǒng)生物學(xué)和基因測序中,基于圖的建模是基本的處理方式,圖算法已經(jīng)成為事實上的基礎(chǔ)模塊。這些實際問題中的圖多數(shù)用稀疏矩陣來描述,數(shù)學(xué)模型可抽象為線性代數(shù)的表示,其算法與稀疏線性代數(shù)存在數(shù)學(xué)上的等價性。這類數(shù)據(jù)處理應(yīng)用具有更嚴重的不規(guī)則計算與通信模式,以及更低的計算訪存(通信)比,如何并行優(yōu)化成為高性能計算研究的熱點和難點。2010年6月,美國Sandia實驗室牽頭聯(lián)合美國幾大國家實驗室和科研機構(gòu),發(fā)布了以圖遍歷算法為核心的Graph500基準測試程序[12],在用于高性能計算機系統(tǒng)排名的同時,也促進了面向E級數(shù)據(jù)處理的并行算法設(shè)計和優(yōu)化技術(shù)的研究。

3)高性能計算機產(chǎn)業(yè)

根據(jù)IDC 2015年的統(tǒng)計[2],全球高性能計算市場規(guī)模在250億美元,其中高性能計算機系統(tǒng)(包括服務(wù)器、存儲和網(wǎng)絡(luò))約占60%,軟件和服務(wù)約占35%;據(jù)預(yù)測在2015—2020 年間高性能計算市場規(guī)模將以8.3%的復(fù)合增長率而增長,在2020年達到440億美元。自2012年的4年間,世界高性能計算機Top 500排行榜的入門性能和性能總和分別提高了4倍和3.7倍。

美國公司仍然占據(jù)整機市場的領(lǐng)先地位,2014年全球Top 500高性能計算機市場份額的80%被惠普、IBM 和Cray 三家公司占據(jù)(圖7)。但受系統(tǒng)升級以及2014年聯(lián)想收購IBM 的x86服務(wù)器部門的影響,2015 年IBM 的份額大幅下降,國產(chǎn)的曙光高性能計算機異軍突起,以9.8%的份額取代IBM 位列第三,這證明了中國高性能計算機整機技術(shù)和產(chǎn)業(yè)化能力都達到了世界領(lǐng)先水平。在國家高技術(shù)研究發(fā)展計劃(863計劃)的持續(xù)支持下,中國已經(jīng)掌握了包括高密度服務(wù)器、機群操作系統(tǒng)、高性能存儲系統(tǒng)、冷卻技術(shù)在內(nèi)的各項整機系統(tǒng)技術(shù)。國產(chǎn)高性能計算機系統(tǒng)已經(jīng)連續(xù)兩年占據(jù)中國Top 100系統(tǒng)90%以上的份額,曙光信息產(chǎn)業(yè)股份有限公司更是連續(xù)7 年蟬聯(lián)中國Top 100 份額第一。隨著聯(lián)想對IBMx86 服務(wù)器并購的完成,曙光、聯(lián)想和浪潮三強爭霸的局面已經(jīng)形成。

圖7 全球Top 500 高性能計算機市場份額

在國家自主可控和保障信息安全的宏觀政策引導(dǎo)下,中國啟動了基于自主可控處理器構(gòu)建國產(chǎn)高性能計算機的計劃,“核高基”重大科技專項支持了3個高性能處理器系列的研制,即飛騰(國防科大,ARM指令集)、申威(江南計算所,基于Alpha 的自定義指令集)和龍芯(中科龍芯,MIPS指令集)。國家高技術(shù)研究發(fā)展計劃(863 計劃)項目中1Flops神威藍光計算機全部采用了申威16核CPU,曙光星云計算機部分部署了龍芯8核CPU,國防科技大學(xué)天河系統(tǒng)部分部署了飛騰多核CPU。但由于采用非x86指令集,商用并行軟件都不能運行,還沒有能力構(gòu)建自己的軟件生態(tài)系統(tǒng),這些因素使其應(yīng)用領(lǐng)域受到很大限制,市場容量過于狹小。到目前為止,基于自主可控處理器的高性能計算機還局限在國家科技項目范疇,尚沒有開始產(chǎn)業(yè)化進程,在國家戰(zhàn)略應(yīng)用中進行推廣是一條可行的發(fā)展道路。

國產(chǎn)HPC應(yīng)用軟件是中國高性能計算的短板,與國際上的差距最大。在工業(yè)界應(yīng)用極為廣泛的CAE 軟件,仍然被以ANSYS等為代表的國外軟件壟斷,幾百并行度的軟件就需要數(shù)百萬人民幣的License 費用,高端的開源HPC軟件也主要來自美國、日本以及歐洲國家。具有代表性的國產(chǎn)商用應(yīng)用軟件僅有GeoEast(石油勘探領(lǐng)域)和Grape(大氣科學(xué)領(lǐng)域),由于投入不足,近年來沒有再涌現(xiàn)類似商用軟件。大多的國產(chǎn)私有應(yīng)用軟件也是以大學(xué)和科研院所自用為主,少有成規(guī)模的推廣使用,特別是國產(chǎn)HPC 應(yīng)用軟件在開源和中間件上基本剛起步,而它們早已成為應(yīng)用軟件規(guī)模化發(fā)展的主流模式。

高性能計算面臨的挑戰(zhàn)

根據(jù)Top 500歷史數(shù)據(jù)進行預(yù)測,高性能計算機將在2020年左右進入E級時代。美國政府在“Strategy for American Innovation”計劃中,將E級計算列為21 世紀美國最主要的技術(shù)挑戰(zhàn),美國國防部、能源部、自然科學(xué)基金委、國家核安全局等部門以及日本文部省、歐盟、俄羅斯聯(lián)邦原子能署等均對此進行了大量的投入,中國也在“十三五”期間啟動了E 級計算機的研制計劃。E級計算系統(tǒng)在能耗、可靠性、應(yīng)用效率等方面都將面臨一系列挑戰(zhàn)。

1)功耗挑戰(zhàn)

美國、日本、歐盟已經(jīng)制定了2018—2020年研制E級高性能計算機的目標,系統(tǒng)功耗指標設(shè)定為20 MW,即每瓦500億次浮點計算,而目前能效比最高的系統(tǒng),即Green 500排名第一的由日本研制的Shoubu 超級計算機,其能效比也僅達到70 億次/w 的水平[13],距離E級機的能效指標尚有10倍左右的差距?？梢哉f,制約E級機實現(xiàn)的最大技術(shù)障礙之一是能耗比。

針對降低高性能計算系統(tǒng)能耗這一關(guān)鍵問題,國際學(xué)術(shù)界和工業(yè)界已有大量努力,涉及計算機系統(tǒng)從應(yīng)用至芯片各個層次的優(yōu)化,例如高效能眾核處理器、減少數(shù)據(jù)移動的算法優(yōu)化、能耗感知的系統(tǒng)調(diào)度、低能耗的系統(tǒng)、與機房冷卻技術(shù)等。從目前的技術(shù)水平估計,即使考慮“摩爾定律”因素,在2020年實現(xiàn)20 MW的功耗目標仍存在相當大的困難。

2)可靠性的挑戰(zhàn)

隨著高性能計算機規(guī)模越來越大,軟件結(jié)構(gòu)越來越復(fù)雜,E級系統(tǒng)中的故障檢測與診斷是非常有挑戰(zhàn)性的問題。在億億次的規(guī)模下,系統(tǒng)的平均無故障時間(mean time between failure,MTBF)僅為5 h左右;而在E級系統(tǒng)中,處理器的核數(shù)將達到108的量級,在概率上MTBF將會變得更短,其可靠性問題將會更加嚴重。越來越短的平均無故障時間導(dǎo)致故障將在海量現(xiàn)場數(shù)據(jù)的保存或恢復(fù)過程發(fā)生,傳統(tǒng)的周期性保存現(xiàn)場的粗粒度檢查點機制將會失效,在算法和應(yīng)用層次進行細粒度容錯設(shè)計,將是解決可靠性問題的重要途徑。

由于涉及海量信息(包括各種日志、系統(tǒng)運行性能指標)采集和多維度(硬件、軟件、誤操作等)故障分析,及時定位故障也變得越來越困難。需要提高故障檢測與診斷的能力,使得E級計算機系統(tǒng)能夠快速發(fā)現(xiàn)故障,避免故障在系統(tǒng)中擴散,診斷出造成故障的根源,從而加速系統(tǒng)的恢復(fù),保障系統(tǒng)的可用性。

3)應(yīng)用效率挑戰(zhàn)

為降低系統(tǒng)的能耗,構(gòu)建E級計算機系統(tǒng)將大量使用GPU 或眾核處理器。目前,GPU 或眾核處理器都已經(jīng)擁有數(shù)百計算單元,E級計算系統(tǒng)總體并發(fā)度將達到數(shù)千萬量級,異構(gòu)特性和海量并發(fā)度給并行程序的編寫、調(diào)試、性能調(diào)優(yōu)帶來了巨大的挑戰(zhàn),極大地加劇了峰值性能與應(yīng)用性能之間的鴻溝,E級計算系統(tǒng)可能僅能發(fā)揮出1%的峰值性能,應(yīng)用效率變得極低。

由于極大規(guī)模并行所帶來的復(fù)雜性,編程模型必須能夠表示所有異構(gòu)層次的內(nèi)在并行性和局部性,以實現(xiàn)可擴展性和可移植性。同時,編程范式要能充分利用分布存儲機制,以減少數(shù)據(jù)移動的開銷。面向領(lǐng)域的編程框架和算法工具庫有可能成為提高產(chǎn)出率的有效途徑。

目前中國在E級計算機研究方面與美國相比還存在較大差距,主要體現(xiàn)在基礎(chǔ)技術(shù)儲備不足,核心關(guān)鍵技術(shù)難以滿足E級計算的需求。應(yīng)力爭在主流技術(shù)路線的若干關(guān)鍵技術(shù)和重大應(yīng)用上取得突破,把握未來5~10年的關(guān)鍵時期,保持中國在高性能計算技術(shù)方面的可持續(xù)發(fā)展,更好地支撐中國科學(xué)研究走向世界一流,并進一步提升中國高性能計算機產(chǎn)業(yè)的國際競爭力。

高性能計算的未來方向

1)以應(yīng)用為導(dǎo)向發(fā)展高性能計算機

當前的通用系統(tǒng)架構(gòu)以一種結(jié)構(gòu)應(yīng)對多種計算需求,越來越無法實現(xiàn)應(yīng)用需求與硬件性能的最優(yōu)適配,導(dǎo)致計算的低效和功耗的浪費。協(xié)同設(shè)計(co-design)正在被越來越多的專家認為是解決這一問題的主要技術(shù)途徑和頂層方法論。所謂協(xié)同設(shè)計是指通過領(lǐng)域科學(xué)與計算機科學(xué)間的跨學(xué)科緊密協(xié)作,抽象出面向領(lǐng)域應(yīng)用的負載特征,根據(jù)應(yīng)用的特征對計算、訪存、通信等能力進行優(yōu)化配置,實現(xiàn)自硬件到應(yīng)用軟件的一體化定制設(shè)計。

應(yīng)用與系統(tǒng)的協(xié)同設(shè)計理念使得E級系統(tǒng)的設(shè)計更加具有針對性,E級計算應(yīng)用協(xié)同設(shè)計方法,需要覆蓋氣候模擬、核聚變、天體物理、材料科學(xué)、生物信息和人工智能等計算相關(guān)學(xué)科,從應(yīng)用物理模型、計算方法、并行軟件實現(xiàn)等多個層面尋求應(yīng)用共性、區(qū)分特性,將系統(tǒng)研制與多領(lǐng)域應(yīng)用軟件能力提升擰成一體,最大限度發(fā)揮未來計算系統(tǒng)的通用計算效能。隨著系統(tǒng)效能問題的日益嚴峻,領(lǐng)域定制系統(tǒng)將帶動面向典型負載的新型加速器和處理器的發(fā)展,面向領(lǐng)域定制的高性能計算機有望成為未來高端HPC 市場的主流。此外,領(lǐng)域定制系統(tǒng)將帶動面向典型負載的新型處理器市場,成為國產(chǎn)處理器獲得發(fā)展的機會。另外,中國的并行應(yīng)用軟件起步較晚,遺產(chǎn)代碼量相對較少,反而成為中國發(fā)展自硬件到應(yīng)用的全定制HPC系統(tǒng)的優(yōu)勢。

2)面向新興應(yīng)用發(fā)展新型高性能計算機

隨著互聯(lián)網(wǎng)的普及和技術(shù)的發(fā)展,許多與傳統(tǒng)高性能計算應(yīng)用完全不同的應(yīng)用模式競相出現(xiàn),如Web 服務(wù)應(yīng)用、物聯(lián)網(wǎng)服務(wù)應(yīng)用、云計算應(yīng)用等,在Google、百度、阿里等互聯(lián)網(wǎng)企業(yè)使用數(shù)十萬的服務(wù)器向數(shù)以億計的用戶提供各種服務(wù)。這些新型應(yīng)用很多是基于海量數(shù)據(jù)提供吞吐密集型服務(wù),這與傳統(tǒng)計算密集型的高性能應(yīng)用有很大的差別,這從另一個方面賦予了高性能計算新的含義,即面向服務(wù)的高通量計算(high-volume throughput computing,HTC)。

高通量計算一般是基于海量的數(shù)據(jù)向大量的用戶提供交互式、高并發(fā)的服務(wù),在用戶和負載動態(tài)變化時能夠動態(tài)的擴展以滿足對系統(tǒng)處理能力的需要,同時這樣的計算對成本非常的敏感。但是現(xiàn)在運行這些應(yīng)用的計算機系統(tǒng)體系結(jié)構(gòu)本質(zhì)上與用于科學(xué)和工程計算的系統(tǒng)是相同的,完全是通用處理器加通用系統(tǒng)技術(shù),成本高、效能低。例如,現(xiàn)在面向Web 服務(wù)的應(yīng)用計算量很少,對處理器的浮點部件要求較低,而對I/O 系統(tǒng)的要求較高,如果使用通用部件會造成成本的極大浪費。

現(xiàn)在國際上對于這種面向特定領(lǐng)域的高通量計算的研究還處于起步狀態(tài),對于技術(shù)路線和標準的制定還處于碰撞期。隨著互聯(lián)網(wǎng)的進一步發(fā)展,這必然會發(fā)展成為另一個戰(zhàn)略高地,因此中國應(yīng)該及時加大這個方向的投資力度,解決高通量專用芯片以及高通量計算機的若干技術(shù)問題,使中國在未來互聯(lián)網(wǎng)領(lǐng)域的技術(shù)競爭中占據(jù)主導(dǎo)地位。

3) HPC in Cloud

HPC Cloud 可能給未來高性能計算市場帶來的影響最大。這種基于云計算理念構(gòu)建的HPC 服務(wù),主要面向?qū)τ嬎阋?guī)模和性能要求較低的中低端HPC 用戶,在平攤了設(shè)備購置和運維成本的同時,向用戶屏蔽了復(fù)雜的高性能計算機技術(shù)細節(jié),降低了高性能計算機的使用門檻。公有云提供商是這一趨勢的主要推動者,亞馬遜AWS首先推出HPC 服務(wù),用戶可以創(chuàng)建數(shù)千處理器規(guī)模的虛擬高性能計算機系統(tǒng),2011年亞馬遜的一臺虛擬HPC系統(tǒng)獲得了世界Top 500 排名的第42 位,Linpack效率接近70%。2015年底,阿里云也發(fā)布了中國首個云上高性能計算平臺。

HPC in Cloud 可能成為未來超算中心的重要運營模式之一,若越來越多的HPC用戶形成購買HPC服務(wù)而非自建系統(tǒng)的習(xí)慣,勢必形成計算資源的聚集,未來的中低端HPC 計算機市場可能被云計算中心所主導(dǎo)。

4)新興使能技術(shù)帶來新機遇

日益涌現(xiàn)的新興使能技術(shù),如3D堆疊技術(shù)、光子學(xué)、憶阻器、磁基半導(dǎo)體技術(shù)等,對目前仍占主導(dǎo)地位的CMOS、DRAM和磁盤等成熟技術(shù)提出了挑戰(zhàn)。若量子計算、光計算或DNA計算等新型計算理論和技術(shù)發(fā)展成熟,更將從根基上顛覆整個現(xiàn)代計算機體系。

每一個新興使能技術(shù)孕育著顛覆性創(chuàng)新的機會,這迫切需要體系結(jié)構(gòu)的創(chuàng)新,以挖掘新技術(shù)的全部潛力。隨著3D堆疊等新技術(shù)的成熟,很可能會出現(xiàn)面向高性能計算的“大芯片”產(chǎn)品,在單芯片內(nèi)集成眾核CPU、高速互連以及加速器等,這將帶來處理器體系結(jié)構(gòu)上的重大革新。基于磁基的半導(dǎo)體新工藝速度比傳統(tǒng)硅基可提升1000 倍以上?；诠庾訉W(xué)的全光通信技術(shù),可極大降低通信成本。此外,非易失性內(nèi)存技術(shù)(如憶阻器和相變存儲器)也驅(qū)動著系統(tǒng)設(shè)計人員對內(nèi)存和外部存儲系統(tǒng)之間關(guān)系的重新思考。因此,新興使能技術(shù)是“彎道超車”的機會,也應(yīng)該是中國高性能計算領(lǐng)域基礎(chǔ)研究的重點。

參考文獻

[1]Higbie L C. Tutorial: Supercomputer architecture[J]. Computer, 1973, 6(12):48-58.

[2]IDC. 2015, IDC HPC Update at ISC'15[EB/OL]. [2016-04-28].http://www.slideshare.net/insideHPC/ hpc-market-update-from-idc-51061896.

[3]Solomon S. Climate change 2007-the physical science basis: Working group I contribution to the fourth assessment report of the IPCC[M]. Cambridge:Cambridge University Press, 2007.

[4]Kohl S, Leitzl K H, Schmidt M. Transient numerical simulation of CO2 laser fusion cutting of metal sheets: Simulation model and process dynamics[C]//Proceedings of the 37th MATADOR Conference. Manchester:Springer, 2012: 403.

[5]Mohamed A, Yu D, Deng L. Investigation of full-sequence training of deep belief networks for speech recognition[C]. INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan,September 26-30, 2010.

[6]Seide F, Li G, Yu D. Conversational speech transcription using context-dependent deep neural networks[C]. INTERSPEECH 2011, 12th Annual Conferenceof the International Speech Communication Association,Florence, Italy, August 27-31, 2011.

[7]The New York Times. How many computers to identify a cat? 16,000[J/OL].Communications of the Acm, 2012-06-26[2016-04-28], http://www.cs.cornell.edu/courses/CS6700/2013sp/readings/04-a-Deep-Learning-NYT.pdf.

[8]Chi K R. Neural modelling: Abstractions of the mind[J]. Nature, 2016,531(7592): S16-S17.

[9]Moore G. Moore's law[J]. Electronics Magazine, 1965, 38(8): 114.

[10]The Top500 List 2015. [EB/OL]. [2016-04-20]. Available: http://www.Top500.org.

[11]Bryant R E, Polk W T. The National Strategic Computing Initiative[C]//Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis: ACM, Austin 2015.

[12]Murphy R C, Wheeler K B, Barrett B W, et al. Introducing the graph 500[J]. CrayUser's Group (CUG), 2010, 14(3): 15555-15558.

[13] The Green500 List. [EB/OL]. [2016-04-22]. Available: http://www. Green500. org.

(編輯傅雪)

作者簡介:臧大偉,中國科學(xué)院計算技術(shù)研究所,助理研究員,研究方向為高性能計算、數(shù)據(jù)中心網(wǎng)絡(luò)。

注:本文發(fā)表在《科技導(dǎo)報》2016年第14期,歡迎關(guān)注。本文部分圖片來自互聯(lián)網(wǎng),版權(quán)事宜未及落實,歡迎圖片作者與我們聯(lián)系稿酬事宜。

開放分享：優(yōu)質(zhì)有限元技術(shù)文章,助你自學(xué)成才