1980年,當(dāng)Bill Fost先生苦思冥想在為新公司取個什么名字的時候,無意間看到了飛機外層層疊疊的云層,由此“Stratus”誕生了。但是Bill Fost沒有想到,1990當(dāng)他們注冊北京辦事處的時候,竟然可以使用“美國容錯計算機公司”,這種用技術(shù)術(shù)語命名公司的現(xiàn)象,此后再也沒有出現(xiàn)過。不知道國內(nèi)有多少用戶知道 “美國容錯計算機公司”,進而了解容錯技術(shù),但是相信,這幾年數(shù)量有限與很多技術(shù)領(lǐng)先型公司相類似,“酒香不怕巷子深”是其風(fēng)格,市場上的低調(diào)在一定程度上制約了發(fā)展?! ∪蒎e的含義比較寬泛,這種不確定性容易引發(fā)歧義,增加理解上的難度。從概念上來說,容錯是指服務(wù)器對于錯誤的容納能力,是應(yīng)用過程中對于服務(wù)器穩(wěn)定性追求的一個目標(biāo)。為了這樣一個目標(biāo),有幾種技術(shù)上的實現(xiàn)方法,目前國內(nèi)談?wù)撟疃嗟氖侨N:服務(wù)器群集技術(shù)、雙機冗余服務(wù)器方案和單機容錯技術(shù)?! 嶋H上,服務(wù)器群集和雙機冗余的技術(shù)比較類似,雙機冗余是最簡單的集群,是其一個特例,也可以把服務(wù)器集群技術(shù)視為雙機冗余的延伸,可以理解為一種多機容錯的方案。在一般的討論之中,集群技術(shù)是為了解決計算性能不足的問題,通過多臺服務(wù)器的集群計算,為高性能計算領(lǐng)域應(yīng)用提供所需要的高性能。采用集群技術(shù),通過多臺服務(wù)器之間的負載均衡,可以解決服務(wù)器單點故障所引發(fā)的系統(tǒng)不穩(wěn)定,提高系統(tǒng)的可靠性,因此集群具有更好的容錯能力,但是在實際的應(yīng)用中,集群技術(shù)多用于高性能計算?! 螜C容錯技術(shù)以Stratus公司的ftServer、惠普公司的NonStop服務(wù)器和NEC公司的Express5800/ft為代表。這種技術(shù)具有比雙機冗余方案更高的容錯能力。據(jù)記者查閱有關(guān)技術(shù)資料,雙機冗余系統(tǒng)的可靠性可以達到99.9%,也就是3個9的能力,而Stratus公司的方案,其可靠性可以達到5個9。 在記者的采訪中,惠普公司企業(yè)服務(wù)器產(chǎn)品經(jīng)理陳武勝表示,其NonStop服務(wù)器作為目前惠普公司最高檔的服務(wù)器,其可靠性可以達到7個9的水平。在記者看來,雙機冗余與單機容錯有很多的差異,絕不是3個9和5個9的區(qū)別。為了了解這些區(qū)別,記者分別采訪了有關(guān)軟硬件廠商,并結(jié)合實際的應(yīng)用案例,幫助讀者了解有關(guān)容錯服務(wù)器的技術(shù)。   產(chǎn)品技術(shù)篇之一 “沒有錯誤”的容錯服務(wù)器技術(shù)  單機容錯技術(shù)是我們?yōu)榱藚^(qū)別雙機冗余技術(shù)對Stratus等容錯服務(wù)器的稱謂,但是在我的采訪中,有關(guān)服務(wù)器廠商都不愿意采用這個稱謂,他們更愿意采用容錯服務(wù)器,因為單機只是一個表現(xiàn)形式,并不能準(zhǔn)確表達其技術(shù)的特征。IDC資詢師將這種技術(shù)稱之為“沒有錯誤”的容錯服務(wù)器技術(shù)?! ∪蒎e與同步技術(shù)  美國容錯公司技術(shù)顧問高峰在接受記者采訪時表示,容錯服務(wù)器的技術(shù)并不難理解,計算機自誕生之日起,其系統(tǒng)結(jié)構(gòu)并沒有發(fā)生任何改變,仍然是馮諾依曼教授所提出的由運算器(CA)、控制器(CC)、存儲器M和輸入/輸出裝置所組成,而容錯服務(wù)器的思路就是把所有這些部件全部采用冗余硬件設(shè)計。兩個部件共運行同一個任務(wù),以此來提高系統(tǒng)的運行可靠性?! ∵@種思路和方法在其他服務(wù)器產(chǎn)品中也有采用,據(jù)富士通公司首席技術(shù)官周一平介紹,富士通PRIMEQUEST服務(wù)器就采用了這種方法,該服務(wù)器采用英特爾安騰2處理器,富士通把很多大型機和Unix小型機的技術(shù)進行了遷移。例如把處理器、內(nèi)存和PCI總線進行冗余設(shè)計,使系統(tǒng)具有高的可靠性。  高峰表示,這種冗余硬件的設(shè)計并不難理解,但是最為困難的是如何保證計算和數(shù)據(jù)在硬件中的同步,這是Stratus核心的專利技術(shù)。在Stratus容錯服務(wù)器中,它被稱為同步(Lockstep)技術(shù),在惠普的NonStop服務(wù)器中被稱為鎖步技術(shù)?! “豺v還是x86  容錯服務(wù)器另外一個需要關(guān)注的焦點是處理器。據(jù)陳武勝介紹,目前惠普的NonStop服務(wù)器分為兩個系列:NonStop S和Integrity NonStop,其產(chǎn)品的差別在于所采用處理器芯片不同,NonStop S所采用的是MIPS芯片,是收購原美國天騰公司的產(chǎn)品,而Integrity NonStop所采用的是英特爾安騰2處理器。  陳武勝表示,除了處理器的差別之外,新的Integrity NonStop具有很多新的設(shè)計,例如采用3部件的冗余設(shè)計,此外系統(tǒng)總線也有很大改進,因此其可靠性才能夠達到7個9的水平。他指出,目前安騰2芯片已經(jīng)內(nèi)置了Lockstep同步技術(shù),在芯片級提供了系統(tǒng)容錯設(shè)計的能力。而此前處理器芯片不具備這樣的能力,就需要通過外部結(jié)構(gòu)設(shè)計來解決同步的問題。據(jù)了解,Integrity NonStop可以進一步分為NS1000、NS14000和NS16000,分為入門級、中高端和最高端服務(wù)器產(chǎn)品,其中最高端的NS16000服務(wù)器,其每個服務(wù)器的節(jié)點采用2~16個安騰2處理器。這些處理器節(jié)點通過惠普公司獨特的ServerNet進行連接,可以提供多達4080個處理器計算能力?! ≡赟tratus公司的產(chǎn)品中,更加強調(diào)容錯的能力。據(jù)高峰介紹,ftServer已經(jīng)是該公司第四代產(chǎn)品系列,此前先后經(jīng)歷過Motorola M68000、Intel I860芯片、HP PARISC等不同處理器,以及VOS專有操作系統(tǒng)等階段。目前第四代產(chǎn)品采用基于x86結(jié)構(gòu)的Intel 處理器,其W系列最高的6600可以實現(xiàn)基于容錯的4路雙核處理器的計算。高峰表示,Stratus將會在今年發(fā)布基于8路的容錯服務(wù)器產(chǎn)品。  高峰表示,容錯服務(wù)器選擇哪種處理器的關(guān)鍵還是要根據(jù)應(yīng)用的需求。安騰處理器采用了全新的64位計算架構(gòu),需要配合主機級的NonStop操作系統(tǒng)。與之相比,x86架構(gòu)應(yīng)用比較普遍,用戶軟件無須要進行二次開發(fā)。Stratus公司之所以采用Linux、Windows等通用的平臺代替專用的VOS操作系統(tǒng),就是為了降低容錯服務(wù)器的應(yīng)用成本?!  盁o解”的軟件故障  容錯服務(wù)器通過硬件部件的冗余設(shè)計,以及同步技術(shù)的保證,可以有效解決因為硬件原因所造成的系統(tǒng)故障,但是并不能解決軟件故障?! 「叻灞硎荆m然在理論上存在著兩個相同部件同時損壞的情況,但是隨著硬件水平的提高,這種概率是比較低的。高峰表示,容錯硬件的設(shè)計一方面可以防止硬件的單點故障,同時也可以防止硬件所造成的計算錯誤,并對此做出校正。從技術(shù)的角度來看,所有軟件在硬件看來就是0和1,但是在某些情況下,硬件會產(chǎn)生不穩(wěn)定,造成非0非1的中間狀態(tài),就會產(chǎn)生計算的錯誤,這種錯誤并不一定導(dǎo)致系統(tǒng)宕機,其錯誤不易被察覺?! ≡谌蒎e服務(wù)器中,由于采用冗余部件同時運行同一應(yīng)用任務(wù),這樣當(dāng)兩個系統(tǒng)產(chǎn)生不一樣計算結(jié)果的時候,系統(tǒng)就會察覺,并通過技術(shù)手段對于計算錯誤進行校驗,從而提高應(yīng)用的準(zhǔn)確性。但是如果是軟件本身的問題,無論是操作系統(tǒng)還是應(yīng)用軟件,那么容錯服務(wù)器沒有辦法對于這種錯誤進行修整。因為對于容錯服務(wù)器而言,硬件所能夠辨別的就是0和1,至于0和1所蘊含的軟件邏輯,硬件無從辨別。高峰表示,軟件的問題只能夠通過軟件的方法加以解決。有些用戶對此存在一些誤解,認為容錯服務(wù)器不會宕機,實際上容錯服務(wù)器只能夠解決硬件的故障?! £P(guān)于容錯服務(wù)器應(yīng)用,記者也采訪了NEC技術(shù)經(jīng)理黃后生,他表示,選擇容錯服務(wù)器的意義在于為關(guān)鍵業(yè)務(wù)應(yīng)用提供可靠的硬件平臺。黃后生表示,用戶為追求系統(tǒng)可靠性,往往會選擇小型機,但這會增加成本,同時也對企業(yè)的技術(shù)人員提出了比較高的要求。但是選擇容錯服務(wù)器沒有這樣的要求,可以使用他們比較熟悉的Windows平臺或者Linux平臺?! ↑S后生表示,目前NEC的Express5800/ft服務(wù)器在原理上與Stratus非常類似,兩家公司在技術(shù)上有著戰(zhàn)略合作,共同開發(fā)有關(guān)容錯服務(wù)器的相關(guān)技術(shù)。目前NEC是Stratus公司的投資股東,持有Stratus公司部分股票。在全球服務(wù)器市場上,NEC位列前5強,具有豐富應(yīng)用和推廣的經(jīng)驗,以及雄厚的市場推廣能力。在技術(shù)支持和服務(wù)方面,NEC已經(jīng)建立了非常好的渠道,這些優(yōu)勢都有助于容錯服務(wù)器在中國的應(yīng)用和推廣。   產(chǎn)品技術(shù)篇之二基于“心跳”的雙機冗余服務(wù)器方案  相對于容錯服務(wù)器,雙機冗余服務(wù)器解決方案比較簡單,目前服務(wù)器廠商都可以提供。它所采用的是兩臺配置完全一樣的服務(wù)器系統(tǒng),當(dāng)一臺機器出現(xiàn)故障的時候,另外一臺機器接替其工作,保證系統(tǒng)的穩(wěn)定工作。  雙機熱備的兩種模式  雙機熱備有兩種實現(xiàn)模式,一種是比較標(biāo)準(zhǔn)的,兩臺服務(wù)器通過一個共享的存儲設(shè)備(磁盤陣列或存儲區(qū)域網(wǎng)SAN),并且安裝雙機軟件,實現(xiàn)雙機熱備,稱為共享方式。另一種方式是通過純軟件的方式,一般稱為純軟件方式或鏡像方式(Mirror)?! 』诖鎯蚕淼碾p機熱備是最標(biāo)準(zhǔn)的方案。對于這種方式,采用兩臺或者多臺服務(wù)器,使用共享存儲設(shè)備,兩臺服務(wù)器之間可以采用互備、主從、并行等不同的工作方式。在工作過程中,兩臺服務(wù)器將以一個虛擬的IP地址對外提供服務(wù),依工作方式的不同,其服務(wù)請求將發(fā)送給其中一臺服務(wù)器承擔(dān)。當(dāng)一臺服務(wù)器出現(xiàn)故障時,另一臺服務(wù)器根據(jù)心跳偵測的情況做出判斷,并進行切換,接管服務(wù)。對于用戶而言,這一過程是全自動的。這種模式好處在于兩臺服務(wù)器所使用數(shù)據(jù)相同,但是也有用戶擔(dān)心,共享存儲設(shè)備會成為系統(tǒng)單一故障點。為此,存儲廠商也針對存儲設(shè)備推出了雙冗余的方案?! 〖冘浖p機冗余方案是一個更加經(jīng)濟的方案,其沒有集中式存儲設(shè)備,其數(shù)據(jù)保存在服務(wù)器各自的硬盤上,通過支持鏡像的雙機軟件,將數(shù)據(jù)實時復(fù)制到另一臺服務(wù)器上。純軟件方案其數(shù)據(jù)同步運行在兩臺服務(wù)器上,如果一臺服務(wù)器出現(xiàn)故障,可以及時切換到另一臺服務(wù)器上。采用純軟件方式避免了磁盤陣列的單點故障;節(jié)約投資,不需購買昂貴的磁盤陣列;不受距離的限制;可以靈活地部署服務(wù)器。   軟件水平是關(guān)鍵  無論采用哪一個廠商的雙機冗余服務(wù)器解決方案,所采用的雙機或集群軟件是其中的關(guān)鍵,軟件定了,方案的容錯水平也就定了?! ∧壳笆袌錾显赪indows平臺下比較常見的雙機軟件有DataWare、Lander Cluster和LifeKeeper;在Linux平臺下有DataWare、ROSE HA、PCL HA、 LifeKeeper和Lander Cluster等。此外,在SCO Unix和Sun Solaris平臺下常用的軟件有Lander Cluster和PCL HA?! 榱藢@些軟件的性能有所了解,記者采訪了DataWare的生產(chǎn)廠商,來自臺灣的ProWere公司,其在北京的辦事處豪威科技首席代表白廣凌和蔡雪濤工程師介紹了有關(guān)情況。白廣凌表示這些軟件在功能上都差不多,如自動偵測功能。它在兩臺服務(wù)器之間提供異常情況互相監(jiān)控,如果其中一臺主機發(fā)生故障,則故障機制立刻執(zhí)行,如果不能在故障主機解決,所有資源將自動切換到另一臺主機。雙機軟件一般提供兩種模式:Active / Standby 模式和Active / Active 模式,前者一臺作業(yè)主機承擔(dān)所有的工作負載,另一臺主機處于備援狀態(tài);而后者則是兩臺主機共同分擔(dān)工作負載,如果其中一臺主機故障,另一臺主機將自動承擔(dān)所有的工作負載。  蔡雪濤指出,雙機軟件的關(guān)鍵在于切換,最為忌諱的情況就是誤切換。如果雙機都認為對方發(fā)生了故障,就會產(chǎn)生兩臺主機相互爭奪資源的情況,就將導(dǎo)致嚴(yán)重的后果。蔡雪濤表示,雙機冗余服務(wù)器解決方案不能夠替代數(shù)據(jù)備份,以純軟件方式為例,如果數(shù)據(jù)有錯誤,那么其另一臺機器上的鏡像肯定也是錯誤的,因此雙機冗余服務(wù)器解決方案不能解決類似的錯誤。采用數(shù)據(jù)集中存儲的方式,無論是NAS還是SAN,兩臺服務(wù)器所使用的是同一個數(shù)據(jù)。但是存儲設(shè)備存在單一故障的風(fēng)險,為此,ProWere推出了針對NAS存儲的雙冗余解決方案?! 〔萄硎荆煌碾p機軟件在細節(jié)上還是有一些差異,最主要的是故障偵測的機制。兩臺服務(wù)器之間一般通過“心跳”線進行偵測,“心跳”線的連接有串口、SCSI和網(wǎng)絡(luò)連接三種方式。在一般情況下,應(yīng)該至少采用兩種連接方式,以增加偵測的準(zhǔn)確性?! ∧壳半p機應(yīng)用的范圍比較廣泛,無論在銀行、電信、政府、電力、石油、新聞出版、生產(chǎn)制造等行業(yè),凡涉及關(guān)鍵業(yè)務(wù)應(yīng)用的領(lǐng)域,雙機冗余都是一個重要的解決方案。但是雙機冗余服務(wù)器方案同樣不能夠解決軟件的故障。蔡雪濤指出,以常見的數(shù)據(jù)庫故障為例,有些時候數(shù)據(jù)庫莫名其妙打不開了,在這種情況下,只有重新安裝數(shù)據(jù)庫,沒有其他好的辦法。蔡雪濤提醒用戶,雙機冗余不能夠替代備份,數(shù)據(jù)備份和災(zāi)難恢復(fù)系統(tǒng)是應(yīng)對故障最好的辦法。   案例應(yīng)用篇電力SIS系統(tǒng)的選擇  廠級監(jiān)控信息系統(tǒng)(SIS系統(tǒng))是目前電廠信息化建設(shè)的重要系統(tǒng)。據(jù)北京京能熱電股份有限公司(京能熱電)副總工程師李東介紹,SIS位于電廠管理信息(MIS)系統(tǒng)與各種分散控制(DCS)系統(tǒng)之上,以經(jīng)濟運行和提高發(fā)電企業(yè)整體效益為目的,采用先進、適用、有效的專業(yè)計算方法,實現(xiàn)整個電廠范圍內(nèi)的信息共享,對廠級生產(chǎn)過程進行實時信息監(jiān)控和調(diào)度,提高機組運行的可靠性。  SIS系統(tǒng)為管理層決策提供了真實、可靠的實時運行數(shù)據(jù)。與此同時,與職工息息相關(guān)的績效考核等工作,也需要SIS系統(tǒng)提供支持。據(jù)了解,京能熱電從去年下半年開始實施SIS系統(tǒng),其首要的任務(wù)就是選擇硬件支撐平臺。李東表示,SIS系統(tǒng)涉及大量復(fù)雜過程的實時信息數(shù)據(jù)操作,因此硬件平臺應(yīng)該選用高性能、高可用性、升級便捷和維護方便的企業(yè)級數(shù)據(jù)庫服務(wù)器,同時應(yīng)該兼顧開放式的體系結(jié)構(gòu)和分布式系統(tǒng)設(shè)計。  經(jīng)過對現(xiàn)有硬件平臺的分析比較,京能熱電最終選擇了Stratus ftServer W 系列 3300 服務(wù)器。據(jù)李東介紹,該服務(wù)器采用部件級冗余的工業(yè)標(biāo)準(zhǔn)容錯服務(wù)器,其可靠性設(shè)計達到99.999%以上,其中電源、CPU、內(nèi)存、I/O控制組件均采用冗余配置。通過該服務(wù)器的CPU/MEM集成鎖步(Lock-Step)技術(shù),其冗余部件在同一時鐘周期做同樣的指令,動態(tài)數(shù)據(jù)得到保護?! ∨c雙機冗余服務(wù)器方案進行比較,京能熱電方面認為,容錯服務(wù)器具有更高的可靠性和系統(tǒng)可用性,在此,李東特別提到了I/O部件的冗余,他們也配對工作,能夠在發(fā)生故障時進行接管,切換時間在毫秒級。切換過程不需要使用任何軟件和編寫腳本程序。  從配置來看,該服務(wù)器采用雙路Intel Xeon 3.2GHz 處理器,二級緩存為1MB,其內(nèi)存配置為2GB DDR。該服務(wù)器采用Windows Server 2003簡體中文企業(yè)版操作系統(tǒng),配置相應(yīng)的服務(wù)器管理軟件,在硬盤方面采用工業(yè)標(biāo)準(zhǔn)熱插拔內(nèi)置硬盤,并作RAID 1保護,實際數(shù)據(jù)容量大于300GB,最大可達到480GB。該服務(wù)器集成一對雙口10/100/1000自適應(yīng)RJ45以太網(wǎng)卡,四個網(wǎng)口可兩兩配對,互為冗余,每對網(wǎng)口可配置成同一IP地址,隨時進行故障切換。據(jù)了解,該服務(wù)器所有部件均可以模塊化方式進行熱插拔,即CPU、內(nèi)存、電源、風(fēng)扇、硬盤、網(wǎng)卡、所有I/O設(shè)備、甚至主機板出現(xiàn)故障時,均可不停機進行更換,能把硬件故障導(dǎo)致的平均非計劃停機時間控制在每年5分鐘之內(nèi)?! ±顤|表示,之所以選用Stratus公司的ftServer系列產(chǎn)品,有一個非常重要的原因,即目前國內(nèi)市場上所采用的SIS系統(tǒng)軟件基本上基于Windows平臺,因此基于x86平臺的ftServer就成為當(dāng)然之選。如果是選用惠普公司的Integrity NonStop服務(wù)器,其應(yīng)用軟件運行在NonStop OS之上,有別于Windows操作系統(tǒng),將涉及到應(yīng)用軟件的修改。李東也就雙機冗余方案進行了對比,經(jīng)過他們測算,如果采用雙機冗余方案,需要購買兩套操作系統(tǒng)、兩套數(shù)據(jù)庫產(chǎn)品,那么其總體的投資與容錯服務(wù)器方案相當(dāng),而系統(tǒng)的可用性方面,容錯服務(wù)器顯然更具有優(yōu)勢。對此, Stratus公司高峰表示,目前國內(nèi)的采購,軟件和硬件大多分開招標(biāo),這非常不利于用戶計算總體成本,對于容錯服務(wù)器產(chǎn)品銷售也有一定的影響?! ±顤|表示,目前國內(nèi)行業(yè)用戶對于軟件的正版化問題已經(jīng)足夠重視,這非常有利于容錯服務(wù)器的應(yīng)用推廣,從他們的應(yīng)用實踐看,容錯服務(wù)器是一個不錯的選擇。  編看編想微軟最應(yīng)該使用容錯服務(wù)器  在產(chǎn)品的表達上有很多的遺憾,例如視訊會議的廠商,后悔把他們的產(chǎn)品稱為會議,因為這種產(chǎn)品并不是僅僅解決一個開會的問題。對此,Polycom中國區(qū)總經(jīng)理李剛表示,如果當(dāng)初把“視訊會議”譯為“視頻通信”,那么他們現(xiàn)在的工作會好做許多。類似的還有VoIP,談?wù)揤oIP產(chǎn)品,一定要說明你是什么VoIP。因為VoIP有很多種,小到電話卡,大到IP Centrix,有IP PBX,也有純IP的VoIP解決方案,這種概念的不確定性,增加了事物的復(fù)雜性,給應(yīng)用推廣帶來了難題?! τ谌蒎e服務(wù)器而言,我想Stratus公司的創(chuàng)始人Bill Fost先生也一定在后悔把他們的產(chǎn)品稱為容錯服務(wù)器,在這個世界上有一種雙機冗余服務(wù)器解決方案也可以稱為容錯服務(wù)器。不知道Bill Fost是否知道中國有一個李逵,還有一個人叫李鬼,如果單純從外表看,相信Bill Fost一定分不清,哪個是李逵哪個是李鬼我想,對于大多數(shù)用戶而言,一定也說不清楚容錯服務(wù)器和雙機冗余有多大的區(qū)別?! ∪绻沂荁ill Fost,我就會把服務(wù)器送給微軟,讓他們開發(fā)人員用容錯服務(wù)器檢驗軟件,很簡單,如果服務(wù)器宕機了,沒有什么說不清楚的,一定是軟件的錯誤。其實這一點,比爾·蓋茨自己也十分清楚,沒有沒有錯誤的軟件,在軟件工程開發(fā)中有一個關(guān)門的時間,時間一過,任憑有天大的問題也不可進行修改了,要修改可以,發(fā)補丁包好了。不如此,無法保證軟件的進度。但是軟件廠商之所以敢把有問題的軟件投放市場,還在于他們有一個擋箭牌,即重啟一下機器,問題就會神秘消失了,誰敢說一定是軟件的問題但是,使用容錯服務(wù)器,這幾乎是板上釘釘?shù)氖虑?  話可以這么說,但我畢竟是一個編輯,不能太偏頗。實際上,雙機冗余也是一個不錯的選擇!相對那些非關(guān)鍵的業(yè)務(wù),但也是比較重要的業(yè)務(wù)而言,雙機冗余有自己的適用范圍?! ∪缧桕P(guān)于Stratus ftServer W系列各型號產(chǎn)品的報價及其它更多信息,可咨詢北京遞杰科進,電話:010-51661962?! ∠嚓P(guān)專題: Stratus ftServer 服務(wù)器專題 來源:網(wǎng)界網(wǎng) 作者:宋家雨