****欧欧美毛片4,国产午夜精品视频,97视频在线观看免费视频,久久七国产精品

數(shù)據(jù)恢復(fù)咨詢熱線:400-666-3702??

歡迎訪問南京兆柏?cái)?shù)據(jù)恢復(fù)公司,專業(yè)數(shù)據(jù)恢復(fù)15年

兆柏?cái)?shù)據(jù)恢復(fù)公司

?常見問題

?當(dāng)前位置: 主頁(yè) > 常見問題

【可靠性精選】提高可靠性最笨的辦法,也是最有效的方法——冗余設(shè)計(jì)

瀏覽量: 次 發(fā)布日期:2023-08-23 22:56:00

【可靠性精選】提高可靠性最笨的辦法,也是最有效的方法——冗余設(shè)計(jì)

     中國(guó)人德國(guó)人美國(guó)人日本人四個(gè)人坐飛機(jī),飛機(jī)有四個(gè)發(fā)動(dòng)機(jī),結(jié)果,飛機(jī)出了故障,壞了一個(gè)發(fā)動(dòng)機(jī),需要緊急減輕重量,有一個(gè)人要跳下去,否則飛機(jī)就會(huì)墜毀。

       于是他們決定石頭剪刀布,輸了跳下去。
       美國(guó)人輸了,美國(guó)人走到艙門口說:“美利堅(jiān)合眾國(guó)萬歲!”,就跳下去了。

       沒多久,又壞了一個(gè)發(fā)動(dòng)機(jī)。德國(guó)人輸了。德國(guó)人走到艙門口說:“德意志萬歲!”,就跳下去了。

       又沒多久,又壞了一個(gè)發(fā)動(dòng)機(jī)。中國(guó)人輸了。中國(guó)人大吼一聲:“中國(guó)人民萬歲!”然后,就把那日本人從艙門口踹了下去。


      這是一個(gè)笑話。但是呢,笑完之后,發(fā)動(dòng)機(jī)如果做了備份,飛機(jī)如果有一個(gè)發(fā)動(dòng)機(jī)損壞了,仍然還可以飛行。這個(gè)就是冗余設(shè)計(jì)。


一、什么是冗余設(shè)計(jì)

       又稱余度設(shè)計(jì)技術(shù),是在系統(tǒng)或設(shè)備完成任務(wù)起關(guān)鍵作用的地方,增加一套以上完成相同功能的功能通道、工作元件或部件,以保證當(dāng)該部分出現(xiàn)故障時(shí),系統(tǒng)或設(shè)備仍能正常工作,以減少系統(tǒng)或者設(shè)備的故障概率,提高系統(tǒng)可靠性。


       航空領(lǐng)域的飛機(jī),因?yàn)閱未物w機(jī)事故造成的死亡率高,死亡人數(shù)多,所以冗余系統(tǒng)在飛機(jī)上也有很好的應(yīng)用,如果一個(gè)飛機(jī)需要兩個(gè)發(fā)動(dòng)機(jī)可以正常啟用的話,那這個(gè)飛機(jī)可能需要至少四個(gè)發(fā)動(dòng)機(jī),除去安全系數(shù)的考慮外,這里面就有冗余系統(tǒng)的理念,以保證一兩個(gè)發(fā)動(dòng)機(jī)的故障,不會(huì)引起飛機(jī)失事,而造成重大的事故。這里可以看出冗余系統(tǒng)的一個(gè)很重要的缺點(diǎn):就是發(fā)動(dòng)機(jī)的故障并不是獨(dú)立的,可能其中一個(gè)發(fā)動(dòng)機(jī)著火的話,會(huì)引起其他發(fā)動(dòng)機(jī)的故障,所以這個(gè)可靠性會(huì)比理論計(jì)算的少很多。

     生活中,也有比較常見的冗余系統(tǒng),如運(yùn)貨的重卡,在卡車載重的后輪胎上,任意一個(gè)軸承上的一邊至少有兩個(gè)輪胎,其實(shí)僅需要一個(gè)輪胎,重卡就可以正常運(yùn)行,另外一個(gè)輪胎就是冗余系統(tǒng)了。

        冗余系統(tǒng)不一定非要是軟件類的系統(tǒng)或機(jī)械類的設(shè)備,也可以是人(廣義上來說人也是系統(tǒng)的一部分),但用人來當(dāng)冗余系統(tǒng)的話,可靠性會(huì)更低,因?yàn)槿说呐袛喔资芡饨缫蛩氐母蓴_。



一般來說冗余系統(tǒng)目的在于:為了保險(xiǎn)起見,采取兩套同樣獨(dú)立配置的硬件、軟件或設(shè)計(jì)等,防止在其中一套系統(tǒng)出現(xiàn)故障時(shí),另一套系統(tǒng)能立即啟動(dòng),代替工作,這就好比演員的替身。一套單獨(dú)的系統(tǒng)也許運(yùn)行的故障率很高,但采取冗余措施后,在不改變內(nèi)部設(shè)計(jì)的情況下,這套系統(tǒng)的可靠性立即可以大幅度提高。假如單獨(dú)系統(tǒng)的故障率為50%,而采取冗余系統(tǒng)后馬上可以將故障率降低到25%。


冗余系統(tǒng)的優(yōu)點(diǎn)在于:

一、以現(xiàn)有的系統(tǒng)為依托,不需要任何時(shí)間或科研投入,可以立即實(shí)現(xiàn);

二、配置、安裝、使用簡(jiǎn)單,無需額外的培訓(xùn)、設(shè)計(jì)等;

三、使用冗余系統(tǒng),理論上來講,系統(tǒng)的故障率可以接近為零。


冗余系統(tǒng)的缺點(diǎn)在于:

一、使用冗余系統(tǒng)就代表該系統(tǒng)臃腫,不簡(jiǎn)潔;

二:投入成本巨大,需要購(gòu)買額外的系統(tǒng),以及增加該系統(tǒng)后的后期維護(hù)成本等;

三:完全獨(dú)立的系統(tǒng)并不存在,所以冗余系統(tǒng)最大的缺點(diǎn)在于,相互獨(dú)立的配置之間會(huì)互相影響(尤其是依靠人的冗余系統(tǒng)),可靠性相對(duì)理論計(jì)算會(huì)大幅度下降。


       冗余系統(tǒng)因?yàn)榍捌谕度刖薮?,后期的維護(hù)成本高,所以只有在高風(fēng)險(xiǎn)(包括金融風(fēng)險(xiǎn)、行政風(fēng)險(xiǎn)、管理風(fēng)險(xiǎn)以及危及生命安全的風(fēng)險(xiǎn))行業(yè)應(yīng)用比較廣泛,如:金融領(lǐng)域、核安全領(lǐng)域、航空領(lǐng)域、煤礦等領(lǐng)域。

       銀行中的數(shù)據(jù)非常重要,即使服務(wù)器小概率的故障,也會(huì)有很大影響,甚至?xí)绊懸粋€(gè)國(guó)家的金融體系的穩(wěn)定。所以,每一個(gè)銀行的數(shù)據(jù)至少同時(shí)存在兩個(gè)以上的不同地點(diǎn)的服務(wù)器中(這就是一個(gè)簡(jiǎn)單的冗余系統(tǒng)),需要明白的是這個(gè)跟備份不一樣,備份可以是先存儲(chǔ),再備份,而銀行系統(tǒng)的冗余系統(tǒng)是同時(shí)更改,以保證在任意時(shí)間,任意一個(gè)服務(wù)器的故障,都不會(huì)引起數(shù)據(jù)失真。



二、冗余設(shè)計(jì)的分類


1、異地容災(zāi):  

異地容災(zāi),顧名思義就是在不同的地域,構(gòu)建一套或者多套相同的應(yīng)用或者數(shù)據(jù)庫(kù),起到災(zāi)難后立刻接管的作用。

      現(xiàn)代的企業(yè)已經(jīng)變得越來越依賴數(shù)據(jù)處理中心進(jìn)行業(yè)務(wù)處理,對(duì)于這些數(shù)據(jù)中心來說,業(yè)務(wù)完全依靠信息技術(shù)進(jìn)行處理。對(duì)于信息處理中心來說,對(duì)數(shù)據(jù)的完整性和可用性提出了極高的要求。特別是大型金融、電信等企業(yè),對(duì)業(yè)務(wù)系統(tǒng)的連續(xù)性提出了更高的要求,對(duì)于這些企事業(yè)單位來說,遇到突發(fā)的故障事件,沒有完備的災(zāi)備系統(tǒng),對(duì)于業(yè)務(wù)系統(tǒng)都是致命的。同樣,對(duì)許多中小企業(yè)來說,必要的災(zāi)備系統(tǒng)也是必要的。

由于異地容災(zāi)的解決方案,是兩套或者多套數(shù)據(jù)及設(shè)備部署在不同的地域,所以當(dāng)一個(gè)地點(diǎn)發(fā)生火災(zāi)、地震的情況的時(shí)候,在異地的備份可以接管業(yè)務(wù)。由于平時(shí)兩地的數(shù)據(jù)同步,也不會(huì)造成用戶數(shù)據(jù)丟失。


2、雙機(jī)備份

     雙機(jī)熱備特指基于高可用系統(tǒng)中的兩臺(tái)服務(wù)器的熱備(或高可用),因兩機(jī)高可用在國(guó)內(nèi)使用較多,故得名雙機(jī)熱備,雙機(jī)高可用按工作中的切換方式分為:主-備方式(Active-Standby方式)和雙主機(jī)方式(Active-Active方式),主-備方式即指的是一臺(tái)服務(wù)器處于某種業(yè)務(wù)的激活狀態(tài)(即Active狀態(tài)),另一臺(tái)服務(wù)器處于該業(yè)務(wù)的備用狀態(tài)(即Standby狀態(tài))。而雙主機(jī)方式即指兩種不同業(yè)務(wù)分別在兩臺(tái)服務(wù)器上互為主備狀態(tài)(即Active-Standby和Standby-Active狀態(tài))。

在企業(yè)的發(fā)展情況與不同環(huán)境因素下,用戶對(duì)系統(tǒng)的連續(xù)工作性和實(shí)時(shí)性也有著更高的要求,從實(shí)際操作面來看,企業(yè)用戶在工作環(huán)節(jié)中,要把采集到的實(shí)時(shí)數(shù)據(jù)存儲(chǔ)在兩臺(tái)計(jì)算機(jī)上,其中一臺(tái)采集機(jī)故障時(shí),另一臺(tái)備用的立刻可以接替,并給出警告信號(hào),當(dāng)采集機(jī)恢復(fù)后,可自動(dòng)接替?zhèn)溆脵C(jī)。因此既達(dá)到能保存重要數(shù)據(jù),又能節(jié)省成本,那么雙機(jī)備份軟件就是企業(yè)用戶的更好選擇。


基于共享存儲(chǔ)(磁盤陣列)的方式

共享存儲(chǔ)方式主要通過磁盤陣列提供切換后,對(duì)數(shù)據(jù)完整性和連續(xù)性的保障。用戶數(shù)據(jù)一般會(huì)放在磁盤陣列上,當(dāng)主機(jī)宕機(jī)后,備機(jī)繼續(xù)從磁盤陣列上取得原有數(shù)據(jù)。如下圖所示

傳統(tǒng)的單存儲(chǔ)方式

這種方式因?yàn)槭褂靡慌_(tái)存儲(chǔ)設(shè)備,往往被業(yè)內(nèi)人士稱為磁盤單點(diǎn)故障。但一般來講存儲(chǔ)的安全性較高。所以如果忽略存儲(chǔ)設(shè)備故障的情況下,這種方式也是業(yè)內(nèi)采用最多的熱備方式。




全冗余方式

全冗余方式就是雙機(jī)雙存儲(chǔ),基于單臺(tái)存儲(chǔ)的傳統(tǒng)雙機(jī)熱備方式,確實(shí)存在存儲(chǔ)單點(diǎn)故障的情況,為實(shí)現(xiàn)存儲(chǔ)冗余,存儲(chǔ)高可用也已經(jīng)越來越多的被用戶接受。我們從理解上可以看出,雙機(jī)熱備最早是為解決服務(wù)器的計(jì)劃性停機(jī)與非計(jì)劃性宕機(jī)的解決方案,但是我們無法實(shí)現(xiàn)存儲(chǔ)的計(jì)劃性停機(jī)與非計(jì)劃性宕機(jī)帶來的服務(wù)器停機(jī),而存儲(chǔ)作為雙機(jī)熱備中唯一存儲(chǔ)數(shù)據(jù)的設(shè)備,它一旦發(fā)生故障往往會(huì)造成雙機(jī)熱備系統(tǒng)全面崩潰。


3、單板級(jí)主備倒換

高端設(shè)備由于所處網(wǎng)絡(luò)位置非常重要,不允許出現(xiàn)單點(diǎn)故障,設(shè)備一般都配備兩塊主控板,分別稱為主用主控板(Master)和備用主控板(Slave)。其中,主用主控板作為控制平面的核心,與外部和業(yè)務(wù)板進(jìn)行業(yè)務(wù)通信,完成系統(tǒng)內(nèi)各模塊的正常功能;而備用主控板則只作為主用主控板的備份,與外部和業(yè)務(wù)板沒有通信。當(dāng)主用主控板發(fā)生故障時(shí),系統(tǒng)自動(dòng)進(jìn)行主備切換,由備用主控板接替主用主控板的工作,保證業(yè)務(wù)的正常運(yùn)行


主備主控板的熱備份過程主要分為批量備份、實(shí)時(shí)備份和數(shù)據(jù)平滑三個(gè)階段。

備用主控板啟動(dòng)后,由于此時(shí)主用主控板和備用主控板的差異比較大,主用主控板會(huì)將當(dāng)前需要備份的數(shù)據(jù)批量同步到備用主控板,這個(gè)過程稱之為批量備份,批量備份時(shí)間的長(zhǎng)短取決于需要備份數(shù)據(jù)量的大小。

批量備份過程結(jié)束后,系統(tǒng)進(jìn)入實(shí)時(shí)備份過程,在此過程中,當(dāng)主用主控板備份數(shù)據(jù)發(fā)生變化時(shí),備份數(shù)據(jù)將實(shí)時(shí)同步到備用板,這個(gè)過程通常很快。

主備倒換后,備用板升為新的主用板,會(huì)通知各個(gè)模塊向業(yè)務(wù)板進(jìn)行數(shù)據(jù)收集和同步,這個(gè)過程稱之為數(shù)據(jù)平滑。平滑過程中,各模塊主動(dòng)與業(yè)務(wù)板進(jìn)行通信,在硬件狀態(tài)、鏈路層狀態(tài)、配置數(shù)據(jù)三個(gè)方面進(jìn)行確認(rèn)和同步,以保證整個(gè)系統(tǒng)維護(hù)的數(shù)據(jù)和狀態(tài)是一致的,從而確保主備切換之后,系統(tǒng)能夠正常運(yùn)行。平滑階段結(jié)束,新的主用板才稱之為完全意義上的主用主控板。


上面的機(jī)框,可以看出,電源板、主控板都做了備份兩份的配置。


4、單板資源池

再如上圖中,下面這些電路板一般都是業(yè)務(wù)或者是接口板,為了防止有單板損壞,按照業(yè)務(wù)性能滿足之外,一般會(huì)多備份一塊備用電路,如果有正在工作的某一塊電路損壞,都可以切換到備用電路板,進(jìn)行繼續(xù)工作。


5、磁盤陣列

即然提到了RAID磁盤陣列,那么我們就先來了解一下什么是RAID?所謂的RAID,是Redundant Arrays of Independent Disks的簡(jiǎn)稱,中文為廉價(jià)冗余磁盤陣列。由1987年由加州大學(xué)伯克利分校提出的,初衷是為了將較廉價(jià)的多個(gè)小磁盤進(jìn)行組合來替代價(jià)格昂貴的大容量磁盤,希望單個(gè)磁盤損壞后不會(huì)影響到其它磁盤的繼續(xù)使用,使數(shù)據(jù)更加的安全。RAID作為一種廉價(jià)的磁盤冗余陣列,能夠提供一個(gè)獨(dú)立的大型存儲(chǔ)設(shè)備解決方案。在提高硬盤容量的同時(shí),還能夠充分提高硬盤的速度,使數(shù)據(jù)更加安全,更加易于磁盤的管理。

1、RAID 0

RAID 0是最早出現(xiàn)的RAID模式,即Data Stripping數(shù)據(jù)分條技術(shù)。RAID 0是組建磁盤陣列中最簡(jiǎn)單的一種形式,只需要2塊以上的硬盤即可,成本低,可以提高整個(gè)磁盤的性能和吞吐量。RAID 0沒有提供冗余或錯(cuò)誤修復(fù)能力,是實(shí)現(xiàn)成本是最低的。

RAID 0最簡(jiǎn)單的實(shí)現(xiàn)方式就是把N塊同樣的硬盤用硬件的形式通過智能磁盤控制器或用操作系統(tǒng)中的磁盤驅(qū)動(dòng)程序以軟件的方式串聯(lián)在一起創(chuàng)建一個(gè)大的卷集。在使用中電腦數(shù)據(jù)依次寫入到各塊硬盤中,它的最大優(yōu)點(diǎn)就是可以整倍的提高硬盤的容量。如使用了三塊80GB的硬盤組建成RAID 0模式,那么磁盤容量就會(huì)是240GB。其速度方面,各單獨(dú)一塊硬盤的速度完全相同。最大的缺點(diǎn)在于任何一塊硬盤出現(xiàn)故障,整個(gè)系統(tǒng)將會(huì)受到破壞,可靠性僅為單獨(dú)一塊硬盤的1/N。

為了解決這一問題,便出一了RAID 0的另一種模式。即在N塊硬盤上選擇合理的帶區(qū)來創(chuàng)建帶區(qū)集。其原理就是將原先順序?qū)懭氲臄?shù)據(jù)被分散到所有的四塊硬盤中同時(shí)進(jìn)行讀寫。四塊硬盤的并行操作使同一時(shí)間內(nèi)磁盤讀寫的速度提升了4倍。

在創(chuàng)建帶區(qū)集時(shí),合理的選擇帶區(qū)的大小非常重要。如果帶區(qū)過大,可能一塊磁盤上的帶區(qū)空間就可以滿足大部分的I/O操作,使數(shù)據(jù)的讀寫仍然只局限在少數(shù)的一、兩塊硬盤上,不能充分的發(fā)揮出并行操作的優(yōu)勢(shì)。另一方面,如果帶區(qū)過小,任何I/O指令都可能引發(fā)大量的讀寫操作,占用過多的控制器總線帶寬。因此,在創(chuàng)建帶區(qū)集時(shí),我們應(yīng)當(dāng)根據(jù)實(shí)際應(yīng)用的需要,慎重的選擇帶區(qū)的大小。

帶區(qū)集雖然可以把數(shù)據(jù)均勻的分配到所有的磁盤上進(jìn)行讀寫。但如果我們把所有的硬盤都連接到一個(gè)控制器上的話,可能會(huì)帶來潛在的危害。這是因?yàn)楫?dāng)我們頻繁進(jìn)行讀寫操作時(shí),很容易使控制器或總線的負(fù)荷 超載。為了避免出現(xiàn)上述問題,建議用戶可以使用多個(gè)磁盤控制器。最好解決方法還是為每一塊硬盤都配備一個(gè)專門的磁盤控制器。

雖然RAID 0可以提供更多的空間和更好的性能,但是整個(gè)系統(tǒng)是非常不可靠的,如果出現(xiàn)故障,無法進(jìn)行任何補(bǔ)救。所以,RAID 0一般只是在那些對(duì)數(shù)據(jù)安全性要求不高的情況下才被人們使用。

2   RAID 1

RAID 1稱為磁盤鏡像,原理是把一個(gè)磁盤的數(shù)據(jù)鏡像到另一個(gè)磁盤上,也就是說數(shù)據(jù)在寫入一塊磁盤的同時(shí),會(huì)在另一塊閑置的磁盤上生成鏡像文件,在不影響性能情況下最大限度的保證系統(tǒng)的可靠性和可修復(fù)性上,只要系統(tǒng)中任何一對(duì)鏡像盤中至少有一塊磁盤可以使用,甚至可以在一半數(shù)量的硬盤出現(xiàn)問題時(shí)系統(tǒng)都可以正常運(yùn)行,當(dāng)一塊硬盤失效時(shí),系統(tǒng)會(huì)忽略該硬盤,轉(zhuǎn)而使用剩余的鏡像盤讀寫數(shù)據(jù),具備很好的磁盤冗余能力。雖然這樣對(duì)數(shù)據(jù)來講絕對(duì)安全,但是成本也會(huì)明顯增加,磁盤利用率為50%,以四塊80GB容量的硬盤來講,可利用的磁盤空間僅為160GB。另外,出現(xiàn)硬盤故障的RAID系統(tǒng)不再可靠,應(yīng)當(dāng)及時(shí)的更換損壞的硬盤,否則剩余的鏡像盤也出現(xiàn)問題,那么整個(gè)系統(tǒng)就會(huì)崩潰。更換新盤后原有數(shù)據(jù)會(huì)需要很長(zhǎng)時(shí)間同步鏡像,外界對(duì)數(shù)據(jù)的訪問不會(huì)受到影響,只是這時(shí)整個(gè)系統(tǒng)的性能有所下降。因此,RAID 1多用在保存關(guān)鍵性的重要數(shù)據(jù)的場(chǎng)合。


RAID 1主要是通過二次讀寫實(shí)現(xiàn)磁盤鏡像,所以磁盤控制器的負(fù)載也相當(dāng)大,尤其是在需要頻繁寫入數(shù)據(jù)的環(huán)境中。為了避免出現(xiàn)性能瓶頸,使用多個(gè)磁盤控制器就顯得很有必要。


3    RAID0+1

從RAID 0+1名稱上我們便可以看出是RAID0與RAID1的結(jié)合體。在我們單獨(dú)使用RAID 1也會(huì)出現(xiàn)類似單獨(dú)使用RAID 0那樣的問題,即在同一時(shí)間內(nèi)只能向一塊磁盤寫入數(shù)據(jù),不能充分利用所有的資源。為了解決這一問題,我們可以在磁盤鏡像中建立帶區(qū)集。因?yàn)檫@種配置方式綜合了帶區(qū)集和鏡像的優(yōu)勢(shì),所以被稱為RAID 0+1。把RAID0和RAID1技術(shù)結(jié)合起來,數(shù)據(jù)除分布在多個(gè)盤上外,每個(gè)盤都有其物理鏡像盤,提供全冗余能力,允許一個(gè)以下磁盤故障,而不影響數(shù)據(jù)可用性,并具有快速讀/寫能力。RAID0+1要在磁盤鏡像中建立帶區(qū)集至少4個(gè)硬盤。


由于我們此次只是介紹家用臺(tái)式機(jī)如何組建RAID磁盤陣列功能,目前主流的主板也只是提供這三種組建模式,因此其它諸如服務(wù)等的高級(jí)RAID模式,這里我們將不再過多的介紹。


4、RAID 5

RAID 5控制還是比較常用的。RAID 5和RAID4 相似但避免了RAID4 的瓶頸,方法是不用校驗(yàn)磁盤而將校驗(yàn)數(shù)據(jù)以循環(huán)的方式放在每一個(gè)磁盤中,RAID 5控制比較復(fù)雜,尤其是利用硬件對(duì)磁盤陣列的控制,因?yàn)檫@種方式的應(yīng)用比其他的RAID level 要掌握更多的事情,有更多的輸出/入需求,既要速度快,又要處理數(shù)據(jù),計(jì)算校驗(yàn)值,做錯(cuò)誤校正等,所以價(jià)格較高。

RAID 5在不停機(jī)及容錯(cuò)的表現(xiàn)都很好,但如有磁盤故障,對(duì)性能的影響較大,大容量的快取內(nèi)存有助于維持性能,但在OLTP 的應(yīng)用上,因?yàn)槊恳还P數(shù)據(jù)或記錄(record)都很小,對(duì)磁盤的存取頻繁,故有一定程度的影響。

某一磁盤故障時(shí),讀取該磁盤的數(shù)據(jù)需把共用同一校驗(yàn)值分段的所有數(shù)據(jù)及校驗(yàn)值讀出來,再把故障磁盤的數(shù)據(jù)計(jì)算出來;寫入時(shí),除了要重覆讀取的程序外,還要再做校驗(yàn)值的計(jì)算,然后寫入更新的數(shù)據(jù)及校驗(yàn)值;等換上新的磁盤,系統(tǒng)要計(jì)算整個(gè)磁盤陣列的數(shù)據(jù)以回復(fù)故障磁盤的數(shù)據(jù),時(shí)間要很長(zhǎng),如系統(tǒng)的工作負(fù)載很重的話,有很多輸出/入的需求在排隊(duì)等候時(shí),會(huì)把系統(tǒng)的性能拉下來。

但如使用硬件磁盤陣列的話,其性能就可以得到大幅度的改進(jìn),因?yàn)橛布疟P陣列如Arena 系列本身有內(nèi)置的CPU 與主機(jī)系統(tǒng)并行運(yùn)作,所有存取磁盤的輸出入工作都在磁盤陣列本身完成,不花費(fèi)主機(jī)的時(shí)間,配合磁盤陣列的快取內(nèi)存的使用,可以提高系統(tǒng)的整體性能,而優(yōu)越的SCSI 控制更能增加數(shù)據(jù)的傳輸速率,即使在磁盤故障的情況下,主機(jī)系統(tǒng)的性能也不會(huì)有明顯的降低。RAID 5要做的事情太多,所以價(jià)格較貴,不適于小系統(tǒng),但如果是大系統(tǒng)使用大的磁盤陣列的話,RAID 5卻是最便宜的方案。以上介紹RAID 5控制。


三、冗余設(shè)計(jì)應(yīng)用舉例


      上圖,這是一個(gè)典型的通信設(shè)備的冗余備份設(shè)計(jì)。

主控板、交換板、時(shí)鐘板:  1+1熱備或溫備

一次電源模塊:  1:1并聯(lián)雙工

風(fēng)扇單元:負(fù)荷分擔(dān)

功能板、接口板:N+1備份


我們都知道:一個(gè)和尚挑水喝、兩個(gè)和尚抬水喝,三個(gè)和尚沒水喝。如果資源多了,做不好協(xié)調(diào)和管理,會(huì)適得其反。


我們做了冗余設(shè)計(jì),如果以下幾點(diǎn)沒有做好,不但不能提高系統(tǒng)的可靠性,還可能弄巧成拙。


影響1+1冗余系統(tǒng)可靠性的關(guān)鍵因素:

1、主、備用單元故障檢測(cè)率

2、切換成功率(與倒換電路、邏輯等相關(guān))

3、主、備用單元的失效率

4、故障修復(fù)率

5、數(shù)據(jù)備份模塊負(fù)責(zé)通過一定的形式組織和管理需要備份的數(shù)據(jù),在主備板之間建立備份通道,接收用戶的備份通知,發(fā)送和接收備份數(shù)據(jù),將主板中的數(shù)據(jù)備份到備板上。

6、倒換模塊負(fù)責(zé)單板狀態(tài)監(jiān)控和主備單板倒換的觸發(fā)。執(zhí)行相應(yīng)的操作:主板降為備板復(fù)位、備板升為主板,并且觸發(fā)平滑過程。倒換模塊同時(shí)對(duì)數(shù)據(jù)備份模塊進(jìn)行控制,并在倒換后啟動(dòng)原備板的平滑過程。

7、數(shù)據(jù)平滑模塊負(fù)責(zé)倒換后備板對(duì)備份數(shù)據(jù)進(jìn)行一致性檢查以及數(shù)據(jù)重建的工作。 


1、主備倒換

高端交換機(jī)由于所處網(wǎng)絡(luò)位置非常重要,不允許出現(xiàn)單點(diǎn)故障,設(shè)備一般都配備兩塊主控板,分別稱為主用主控板(Master)和備用主控板(Slave)。 
 
其中,主用主控板作為控制平面的核心,與外部和業(yè)務(wù)板進(jìn)行業(yè)務(wù)通信,完成系統(tǒng)內(nèi)各模塊的正常功能;而備用主控板則只作為主用主控板的備份,與外部和業(yè)務(wù)板沒有通信。當(dāng)主用主控板發(fā)生故障時(shí),系統(tǒng)自動(dòng)進(jìn)行主備切換,由備用主控板接替主用主控板的工作,保證業(yè)務(wù)的正常運(yùn)行


2、數(shù)據(jù)備份

主備主控板的熱備份過程主要分為批量備份、實(shí)時(shí)備份和數(shù)據(jù)平滑三個(gè)階段。

備用主控板啟動(dòng)后,由于此時(shí)主用主控板和備用主控板的差異比較大,主用主控板會(huì)將當(dāng)前需要備份的數(shù)據(jù)批量同步到備用主控板,這個(gè)過程稱之為批量備份,批量備份時(shí)間的長(zhǎng)短取決于需要備份數(shù)據(jù)量的大小。

批量備份過程結(jié)束后,系統(tǒng)進(jìn)入實(shí)時(shí)備份過程,在此過程中,當(dāng)主用主控板備份數(shù)據(jù)發(fā)生變化時(shí),備份數(shù)據(jù)將實(shí)時(shí)同步到備用板,這個(gè)過程通常很快。

主備倒換后,備用板升為新的主用板,會(huì)通知各個(gè)模塊向業(yè)務(wù)板進(jìn)行數(shù)據(jù)收集和同步,這個(gè)過程稱之為數(shù)據(jù)平滑。平滑過程中,各模塊主動(dòng)與業(yè)務(wù)板進(jìn)行通信,在硬件狀態(tài)、鏈路層狀態(tài)、配置數(shù)據(jù)三個(gè)方面進(jìn)行確認(rèn)和同步,以保證整個(gè)系統(tǒng)維護(hù)的數(shù)據(jù)和狀態(tài)是一致的,從而確保主備切換之后,系統(tǒng)能夠正常運(yùn)行。平滑階段結(jié)束,新的主用板才稱之為完全意義上的主用主控板。


3、主備工作狀態(tài)機(jī)

主用主控板狀態(tài)機(jī)在如下五個(gè)狀態(tài)順序遷移,分別為:等待備用板插入狀態(tài)、等待批量備份請(qǐng)求狀態(tài)、批量備份狀態(tài)、實(shí)時(shí)備份狀態(tài)以及數(shù)據(jù)平滑狀態(tài)。

備用主控板狀態(tài)則在就緒狀態(tài)、批量接收數(shù)據(jù)狀態(tài)、實(shí)時(shí)接收數(shù)據(jù)狀態(tài)三個(gè)狀態(tài)順序遷移。

主用板啟動(dòng)正常工作后就進(jìn)入等待備用板插入狀態(tài);主用主控板檢測(cè)到備用板插入槽位上電啟動(dòng)后進(jìn)入到等待批量備份數(shù)據(jù)狀態(tài),等待備用板的批量備份數(shù)據(jù)請(qǐng)求;當(dāng)備用板上電啟動(dòng)完畢后,首先會(huì)向主控板發(fā)送數(shù)據(jù)批量備份請(qǐng)求,主控板就把需要備份的數(shù)據(jù)打包批量發(fā)送給備用板,包括配置信息和一些狀態(tài)信息等;批量備份完成后,進(jìn)入實(shí)時(shí)備份狀態(tài),當(dāng)主控板需要備份的數(shù)據(jù)發(fā)生變化時(shí),會(huì)通過消息發(fā)送給備用板,備用板完成相關(guān)同步工作;平滑過程只有在備用板變?yōu)橹骺匕宓碾A段才會(huì)出現(xiàn),是主控板的控制平面數(shù)據(jù)和業(yè)務(wù)板進(jìn)行狀態(tài)確認(rèn)和同步的過程;平滑過程完成后備用板才真正成為主控板。

備用板上電啟動(dòng)完成后即進(jìn)入就緒狀態(tài),即隨時(shí)可以接替主控板工作的狀態(tài);然后向主控板發(fā)送批量數(shù)據(jù)備份請(qǐng)求,進(jìn)行批量數(shù)據(jù)同步,此時(shí)不與業(yè)務(wù)板進(jìn)行通信;批量同步完成后,進(jìn)入實(shí)時(shí)備份狀態(tài),實(shí)時(shí)備份的發(fā)起者是主控板,備用板只有在接收到備份數(shù)據(jù)消息時(shí)才進(jìn)行實(shí)時(shí)備份。


4、主備狀態(tài)確定及倒換

4.1 主備狀態(tài)確定

雙主控環(huán)境下,主控板的狀態(tài)是主用還是備用,是在啟動(dòng)過程中由硬件決定的。一般情況,設(shè)備會(huì)首先選擇小槽位號(hào)的主控板作為主用主控板(雙主控啟動(dòng)環(huán)境下,硬件會(huì)在大槽位號(hào)主控板設(shè)置一個(gè)延時(shí),使它稍后啟動(dòng))。

初始啟動(dòng)時(shí),兩塊主控板都處于備用狀態(tài),各自進(jìn)行軟件的啟動(dòng)。小槽位號(hào)主控板在啟動(dòng)到一定階段時(shí)將自己的單板狀態(tài)位置為正常,并且同時(shí)檢測(cè)另一塊主控板的狀態(tài)是否正常;而大槽位號(hào)的主控此時(shí)會(huì)有一個(gè)延時(shí),再檢查另一塊主控板是否正常,并且將自己的單板狀態(tài)位置為正常。這樣,在小槽位號(hào)主控板的狀態(tài)變?yōu)檎r(shí),大槽位號(hào)主控板的狀態(tài)還未正常,因此小槽位號(hào)主控板的狀態(tài)為主用;大槽位號(hào)主控板在延時(shí)過后檢查,發(fā)現(xiàn)另一塊主控板的狀態(tài)為正常,便將自己設(shè)置為備用狀態(tài)。所以,在雙主控環(huán)境下,即使在系統(tǒng)重啟之前,是大槽位號(hào)主控板的狀態(tài)為主用,重啟后,仍然會(huì)是小槽位號(hào)主控板的狀態(tài)為主用。

4.2 主備倒換觸發(fā)

備用主控板到達(dá)實(shí)時(shí)接收數(shù)據(jù)狀態(tài)后,如果檢測(cè)到倒換通知,則切換為主用主控板。檢測(cè)通知是中斷觸發(fā)的,主備倒換的硬件切換時(shí)間在毫秒級(jí)。硬件切換后,新主控板的主備狀態(tài)機(jī)進(jìn)入平滑狀態(tài),開始平滑過程處理。

主備切換的觸發(fā)因素主要有以下幾類:

命令行執(zhí)行主備倒換命令,強(qiáng)行切換。

主用主控板硬復(fù)位或者被手工拔出,引起主備倒換。

主用主控板上發(fā)生軟件異常重啟,從而觸發(fā)倒換。如:模塊異常占用CPU時(shí)間過長(zhǎng),引發(fā)硬件看門狗重啟系統(tǒng);數(shù)據(jù)訪問異常、指令訪問異常等系統(tǒng)異常等引發(fā)重啟。

對(duì)于以上不同的觸發(fā)因素,備用主控板感應(yīng)的時(shí)間都是一樣的:都是在硬件中斷觸發(fā)的,狀態(tài)切換時(shí)間在毫秒級(jí)。

主控板和備用板都會(huì)周期發(fā)送握手報(bào)文,主控板或備用板在設(shè)定的周期內(nèi)沒有收到對(duì)方的握手報(bào)文,就會(huì)認(rèn)為主備通信異常,重新復(fù)位備用板。


長(zhǎng)按二維碼,關(guān)注《硬件十萬個(gè)為什么》,發(fā)送“可靠性”。

查看所有“可靠性”相關(guān)文檔。

相關(guān)推薦