隨著社會經濟的發(fā)展,預計未來幾年用電增長將維持在5%左右的中高速區(qū)間,而電力作為重要能源,需要高效管理,電力系統(tǒng)的全數(shù)字實時仿真平臺,是提升電網(wǎng)快速響應的關鍵環(huán)節(jié)之一,它可以幫助國家電網(wǎng)公司各級調度計算分析人員協(xié)同開展重點活動前期、夏季用電高峰期等不同場景下電力運行的仿真分析,幫助電力系統(tǒng)運行管理人員及時、準確地分析和判斷系統(tǒng)運行狀態(tài),制定保障電網(wǎng)安全高效運行的控制策略,因此仿真平臺仿得又快又準是業(yè)務的關鍵。

中國電科院與浪潮信息聯(lián)合,基于元腦服務器TS860G7產品,為中國電科院電力系統(tǒng)全數(shù)字實時仿真(ADPSS)平臺打造了更高性能、更穩(wěn)定的算力平臺,提供超強并行處理能力,實時效率躍升30%,讓仿真平臺為電力系統(tǒng)的穩(wěn)定運行提供保障。

全數(shù)字實時仿真系統(tǒng)在新型電力系統(tǒng)構建中的算力挑戰(zhàn)

國家電網(wǎng)作為守護國家能源安全及國民經濟命脈的重要支柱,在以新能源為主體的新型電力系統(tǒng)構建中,面臨著負荷需求的急劇增長和發(fā)電裝機數(shù)量的逐年增加。隨著1000kV特高壓線路和智能變電站的密集投運,電網(wǎng)結構變得日益復雜,仿真系統(tǒng)的技術人員表示:電力系統(tǒng)作為科技發(fā)展的產物,不同時間下用電情況瞬息萬變,電力系統(tǒng)是一個非常復雜的動態(tài)系統(tǒng),如果要更高效地保障電網(wǎng)的穩(wěn)定性,就需要通過實時仿真技術,對電網(wǎng)進行分析、掌握電網(wǎng)特性,最終為系統(tǒng)運行提供決策輔助,所以"仿得快、仿得準"是對實時仿真系統(tǒng)提出的要求,這才能更好地保障電網(wǎng)的安全穩(wěn)定。

然而,在實施全數(shù)字實時仿真系統(tǒng)的過程中,算力支持面對三大挑戰(zhàn):

  • 仿真接入復雜度劇增:當前,新能源、虛擬電廠大規(guī)模并網(wǎng)顯著增加了電網(wǎng)設備的基數(shù)與架構的復雜性,國家電網(wǎng)經營區(qū)覆蓋了26個?。ㄗ灾螀^(qū)、直轄市),輸電線路長度超過150萬千米,系統(tǒng)規(guī)模超過10萬個三相節(jié)點。而超大型電力系統(tǒng)電磁暫態(tài)仿真平臺仿真規(guī)模達到上萬節(jié)點,這對實時仿真系統(tǒng)的兼容性和靈活性構成嚴峻考驗。
  • 計算性能瓶頸:隨著仿真需求的增大,大規(guī)模機電與電磁仿真案例的并發(fā)處理壓力巨大,而超大型電力系統(tǒng)電磁暫態(tài)仿真平臺相當于電力系統(tǒng)的‘作戰(zhàn)沙盤’,無論技術人員身處北京電網(wǎng)中心、還是遠在千里外的邊陲區(qū)域,都需要借助仿真系統(tǒng)的能力對機電暫態(tài)、機電-電磁混合、全電磁暫態(tài)進行仿真分析幫助業(yè)務決策,所以實時仿真的效率需要不斷提升,而現(xiàn)有的計算資源難以滿足高效并行運算的需求,亟需計算能力的革新和升級。
  • 通信時延的敏感性:電網(wǎng)實時仿真的精確性依賴于對瞬態(tài)狀態(tài)的精準捕捉,需要將電網(wǎng)仿真時間尺度細化至微秒級,任何內部通信微小的延遲都可能影響仿真的準確性,2017年時仿真平臺的研發(fā)人員攻克了50微秒實時仿真步長的難題,意味著系統(tǒng)在1秒鐘可內對華東電網(wǎng)6000個節(jié)點進行20000次計算,而當仿真步長越小時,仿真模型越準確,所以新算力平臺,研究人員要求通信接口的響應時間嚴格控制在10微秒以內,以消除可能的仿真誤差,保障仿真結論的準確性。

TS860G7為ADPSS仿真系統(tǒng)提供高性能、低延時算力支持

面對既要仿得快,又要仿得準的需求,中國電科院在為ADPSS仿真系統(tǒng)搭建核心算力平臺時進行了嚴苛的選型,要求算力平臺要具備更高性能、更低延遲、更可靠穩(wěn)定的特性,能從容面對"多并發(fā)、低延時"的業(yè)務場景,有效地緩解現(xiàn)有系統(tǒng)的運行壓力并減少系統(tǒng)響應時間。經過縝密細致的選型對比之后,中國電科院最終選擇了浪潮信息元腦服務器TS860G7作為ADPSS仿真系統(tǒng)核心算力平臺的IT設備,提供所需的算力。

ADPSS仿真系統(tǒng)在應用時面臨不同的業(yè)務場景,包括場站級全電磁暫態(tài)仿真計算及半實物驗證,和大型區(qū)域電網(wǎng)電磁暫態(tài)仿真計算及系統(tǒng)級試驗驗證,不同的作業(yè)規(guī)模也對應著不同的仿真需求和作業(yè)的數(shù)據(jù)量,而核心大型平臺需要單硬件平臺仿真數(shù)據(jù)量的規(guī)模需要達到50us仿真步長、不低于8000母線、不少于300臺風機,業(yè)務場景有時需要一兩百個處理器同時參與計算,每個處理器之間都有一定的數(shù)據(jù)通信量,如果應用傳統(tǒng)的雙路服務器,跨節(jié)點間的CPU訪問,就要通過多機互聯(lián),而多機互聯(lián)之間的通信一般通過InfiniBand 100G網(wǎng)卡來實現(xiàn),這種通信網(wǎng)絡延時開銷較大,會影響整個業(yè)務性能,也就導致喪失了ADPSS仿真實時的能力。
 

TS860G7整機通過架構優(yōu)化和全模塊化設計,單機最大支持480核心,核心數(shù)提高114%。采用業(yè)界最優(yōu)的高速連接器選型,首創(chuàng)線板方案并進行阻抗匹配,通過全互聯(lián)拓撲架構,高速互聯(lián)鏈路傳輸速率提升105%;同時TS860G7還支持PCIe5.0高速帶寬,IO傳輸帶寬提升6.3倍,可以很好地滿足多任務的并行計算,高效地支撐千節(jié)點級機電和暫態(tài)實時仿真運算任務。

針對ADPSS仿真系統(tǒng)的低延時需求,TS860G7在整機的架構設計上實現(xiàn)業(yè)界最優(yōu)的器部件布局和布線,減少信號衰減和串擾,提高信號通信性能,采用4組計算節(jié)點,每組兩顆處理器并排,通過中置高速無源背板進行互聯(lián),采用反向設計思路巧妙利用工藝制程減小串擾影響,成本0增加的情況下實現(xiàn)布線密度和走線路徑雙優(yōu)化,結合全頻帶的三維無源仿真,從而減少信號衰減,保障CPU的跨socket訪問時延最低。同時采用IO balance連接模式,每顆CPU可直接訪問所需支持的PCIe卡,相比于經過其他CPU通路二次連接的非Balance模式大幅降低延遲,提升性能;同時整機全PCIe5.0的鏈路設計可以將200GB IB卡的傳輸效率發(fā)揮到最佳,實現(xiàn)不降級、不降速的傳輸效果。

此外,為了保障電力仿真系統(tǒng)高性能低延時的穩(wěn)定運行,面對關鍵應用系統(tǒng)TS860G7提供更穩(wěn)定的算力供給,在部件級、模塊級、鏈路級、系統(tǒng)級四方面采用RAS設計,提供部件級到芯片級的冗余設計,保證數(shù)據(jù)在計算、存儲、I/O等各個環(huán)節(jié)穩(wěn)定可靠,而且TS860G7具備預警和修復故障的能力,可以預測并隔離修復包括內存、硬盤等高故障部件的健康狀態(tài),保障整機MTBF(平均無故障最大工作時間)達到20萬小時以上。

通過以浪潮信息元腦服務器TS860G7為核心打造算力平臺,中國電科院電力系統(tǒng)全數(shù)字實時仿真系統(tǒng)(ADPSS),極大增強了仿真系統(tǒng)的并行處理能力,實時計算集群的效率躍升30%,為處理復雜電網(wǎng)模型和大規(guī)模仿真任務提供了強大動力,升級后的系統(tǒng)在實時通信方面取得了突破,單節(jié)點內部及資源組間的通信抖動均被控制在5微秒以下,遠低于行業(yè)標準,更高效地保證了大電網(wǎng)電磁暫態(tài)仿真精度。同時借助浪潮信息自研的智能運維工具,故障診斷與處理能力得到質的提升,運維效率提高了60%,運維團隊能夠更快識別并解決潛在問題,減少停機時間,確保仿真系統(tǒng)持續(xù)高效、穩(wěn)定地運行。