計算機系統(tǒng)的故障分類以及故障發(fā)生的概率分析
A類:計算機軟硬件故障
發(fā)生概率:對于某一企業(yè),發(fā)生可能性最大,也最頻繁,是經(jīng)常發(fā)生的一類故障; 預(yù)防方法:本地雙機熱備,實現(xiàn)系統(tǒng)冗余,增強業(yè)務(wù)系統(tǒng)的高可用性。
B類:人為操作故障
發(fā)生概率:對管理較嚴、人員素質(zhì)較高的企業(yè),偶爾發(fā)生;對管理較松、人員培訓不足的企業(yè),會經(jīng)常發(fā)生;
預(yù)防方法:提高系統(tǒng)自動化運行管理水平,做好本地數(shù)據(jù)冷備份,減少人的操作與干預(yù),或制定嚴格的管理規(guī)范,避免誤操作。
C類:資源不足引起的計劃性停機
發(fā)生概率:對于某一企業(yè),隨著業(yè)務(wù)的快速增長,平均每年均會發(fā)生如軟、硬件升級、系統(tǒng)資源擴充等事件,業(yè)務(wù)增長越快的企業(yè),發(fā)生亦越頻繁;
預(yù)防方法:本地雙機,系統(tǒng)冗余。 D類:生產(chǎn)地點的災(zāi)難 發(fā)生概率:對于某一企業(yè),發(fā)生概率較??;對于全國范圍,有偶然發(fā)生的必然性;預(yù)防方法:災(zāi)難恢復中心。
故障發(fā)生的損失分析及可行性數(shù)據(jù)保護模式(見右表) 現(xiàn)有備份方式的不足, 幾年前我們主要采用主機內(nèi)置或外置的磁帶機對數(shù)據(jù)進行冷備份,這種方式在數(shù)據(jù)量不大,操作系統(tǒng)種類單一,服務(wù)器數(shù)量有限的情況下,不失為一種既經(jīng)濟又簡明的備份手段。但隨著企業(yè)計算機規(guī)模的擴大,數(shù)據(jù)量幾何級的增長以及分布式網(wǎng)絡(luò)環(huán)境的興起,企業(yè)將越來越多的業(yè)務(wù)分布在不同的機器、不同的操作平臺上,這種單機的人工冷備份方式越來越不適應(yīng)當今分布式網(wǎng)絡(luò)環(huán)境,存在以下種種弊端:
數(shù)據(jù)管理工作難以形成制度化,數(shù)據(jù)丟失現(xiàn)象難以避免;
數(shù)據(jù)分散在不同的機器、不同的應(yīng)用上,管理分散,安全性得不到保障;
難以實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的高效在線備份;
運行著的系統(tǒng)使得維護人員寸步難離,業(yè)務(wù)人員工作效率下降;
存儲媒體管理困難,如今,用來存儲數(shù)據(jù)的介質(zhì)越來越多,各種不同系統(tǒng)下存儲產(chǎn)生的軟盤、磁帶、光盤將給管理帶來很大的困難;
歷史數(shù)據(jù)保留比較困難;
來自非計算機系統(tǒng)因素的隱患,如火災(zāi)、地震等災(zāi)難后的系統(tǒng)重建和業(yè)務(wù)數(shù)據(jù)運作。
網(wǎng)絡(luò)備份系統(tǒng)的目標
理想的備份系統(tǒng)應(yīng)該是全方位、多層次的。首先,要使用硬件備份來防止硬件故障;如果由于軟件故障或人為誤操作造成了數(shù)據(jù)的邏輯損壞,則使用網(wǎng)絡(luò)存儲備份系統(tǒng)和硬件容錯相結(jié)合的方式。這種結(jié)合方式構(gòu)成了對系統(tǒng)的多級防護,不僅能夠有效地防止物理損壞,還能夠徹底防止邏輯損壞。
在網(wǎng)絡(luò)系統(tǒng)安全建設(shè)中必不可少的一個環(huán)節(jié)就是數(shù)據(jù)的常規(guī)備份和歷史保存。一般在生產(chǎn)本地的備份目的主要有兩個:一是生產(chǎn)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)由于系統(tǒng)或人為誤操作造成損壞或丟失后,可及時在生產(chǎn)本地實現(xiàn)數(shù)據(jù)的恢復;另一個目的是在發(fā)生地域性災(zāi)難(地震、火災(zāi)、機器毀壞等)時,可及時在本地或異地實現(xiàn)數(shù)據(jù)及整個系統(tǒng)的災(zāi)難恢復。
考慮到生產(chǎn)本地環(huán)境安全性原因,常規(guī)數(shù)據(jù)備份一般要求一份數(shù)據(jù)至少應(yīng)有兩個拷貝,一份放在生產(chǎn)中心以保證數(shù)據(jù)的正常恢復和數(shù)據(jù)查詢恢復,另一份則要移到異地保存,以保證在生產(chǎn)本地出現(xiàn)災(zāi)難后最低限度的數(shù)據(jù)恢復。此外,更應(yīng)建立歷史歸檔數(shù)據(jù)的異地存放制度,從而確保對歷史業(yè)務(wù)數(shù)據(jù)的可靠恢復與有效稽核的實現(xiàn)。
綜上所述,理想的網(wǎng)絡(luò)備份系統(tǒng)應(yīng)該具備以下功能: 集中式管理網(wǎng)絡(luò)存儲備份管理系統(tǒng)對整個網(wǎng)絡(luò)的數(shù)據(jù)進行管理。利用集中式管理工具的幫助,系統(tǒng)管理員可對全網(wǎng)的備份策略進行統(tǒng)一管理,備份服務(wù)器可以監(jiān)控所有機器的備份作業(yè),也可以修改備份策略,并可即時瀏覽所有目錄。所有數(shù)據(jù)可以備份到同備份服務(wù)器或應(yīng)用服務(wù)器相連的任意一臺磁帶庫內(nèi)。
全自動的備份
對于大多數(shù)機房管理人員來說,備份是一項繁重的任務(wù)。每天都要小心翼翼,不敢有半點閃失,生怕一失足成千古恨。網(wǎng)絡(luò)備份能夠?qū)崿F(xiàn)定時自動備份,大大減輕管理員的壓力。
備份系統(tǒng)能根據(jù)用戶的實際需求,定義需要備份的數(shù)據(jù),然后以圖形界面方式根據(jù)需要設(shè)置備份時間表,備份系統(tǒng)將自動啟動備份作業(yè),無需人工干預(yù)。這個自動備份作業(yè)是可自定的,包括一次備份作業(yè)、每周的某幾日、每月的第幾天等項目。設(shè)定好計劃后,備份作業(yè)就會按計劃自動進行。
數(shù)據(jù)庫備份和恢復
在許多人的觀念里,數(shù)據(jù)庫和文件還是一個概念。當然,如果你的數(shù)據(jù)庫系統(tǒng)是基于文件系統(tǒng)的,當然可以用備份文件的方法備份數(shù)據(jù)庫。
但發(fā)展至今,數(shù)據(jù)庫系統(tǒng)已經(jīng)相當復雜和龐大,再用文件的備份方式來備份數(shù)據(jù)庫已不適用。是否能夠?qū)⑿枰臄?shù)據(jù)從龐大的數(shù)據(jù)庫文件中抽取出來進行備份,是網(wǎng)絡(luò)備份系統(tǒng)是否先進的標志之一。
在線式的索引 備份系統(tǒng)應(yīng)為每天的備份在服務(wù)器中建立在線式的索引,當用戶需要恢復時,只需點取在線式索引中需要恢復的文件或數(shù)據(jù),該系統(tǒng)就會自動進行文件的恢復。
歸檔管理 用戶可以按項目、時間定期對所有數(shù)據(jù)進行有效的歸檔處理。提供統(tǒng)一的Open TapeFormat數(shù)據(jù)存儲格式從而保證所有的應(yīng)用數(shù)據(jù)由一個統(tǒng)一的數(shù)據(jù)格式來作永久的保存,保證數(shù)據(jù)的永久可利用性。 有效的媒體管理備份系統(tǒng)對每一個用于作備份的磁帶自動加入一個電子標簽,同時在軟件中提供了識別標簽的功能,如果磁帶外面的標簽脫落,只需執(zhí)行這一功能,就會迅速知道該磁帶的內(nèi)容。
HSM分級存儲管理
對出版業(yè)、制造業(yè)等易產(chǎn)生大量資料數(shù)據(jù)的行業(yè)而言,資料多屬于極占空間的圖形影像,且每張設(shè)計底稿及文件資料又常需隨時保持在線狀態(tài)?;诠芾砑俺杀镜目紤],HSM (Hierarchical Storage Management,分級存儲管理)系統(tǒng)是一個合適的在線備份解決方案。它利用硬盤、可擦寫磁光盤、磁帶進行三層式存儲管理。所謂分級存儲管理系統(tǒng)是一套自動化的網(wǎng)絡(luò)存儲管理設(shè)備,會自動判斷硬盤中資料的使用頻率,自動將不常用的資料移至速度較慢的光盤,而最不常用的資料則移到磁帶中,這些都由系統(tǒng)管理員自行設(shè)定。在線的資料經(jīng)過一段時間的搬移后,即可達到最佳化。
系統(tǒng)災(zāi)難恢復
網(wǎng)絡(luò)備份的最終目的是保障網(wǎng)絡(luò)系統(tǒng)的順利運行。所以優(yōu)秀的網(wǎng)絡(luò)備份方案應(yīng)能夠備份系統(tǒng)的關(guān)鍵數(shù)據(jù),在網(wǎng)絡(luò)出現(xiàn)故障甚至損壞時,能夠迅速地恢復網(wǎng)絡(luò)系統(tǒng)。從發(fā)現(xiàn)故障到完全恢復系統(tǒng),理想的備份方案耗時不應(yīng)超過半個工作日。
滿足系統(tǒng)不斷增加的需求備份軟件必須能支持多平臺系統(tǒng),當網(wǎng)絡(luò)上連接上其它的應(yīng)用服務(wù)器時,對于網(wǎng)絡(luò)存儲管理系統(tǒng)來說,只需在其上安裝支持這種服務(wù)器的客戶端軟件即可將數(shù)據(jù)備份到磁帶庫或光盤庫中。
網(wǎng)絡(luò)備份存儲管理系統(tǒng)簡介
網(wǎng)絡(luò)數(shù)據(jù)存儲管理系統(tǒng)是指在分布式網(wǎng)絡(luò)環(huán)境下,通過專業(yè)的數(shù)據(jù)存儲管理軟件,結(jié)合相應(yīng)的硬件和存儲設(shè)備,來對全網(wǎng)絡(luò)的數(shù)據(jù)備份進行集中管理,從而實現(xiàn)自動化的備份、文件歸檔、數(shù)據(jù)分級存儲以及災(zāi)難恢復等。
為在整個網(wǎng)絡(luò)系統(tǒng)內(nèi)實現(xiàn)全自動的數(shù)據(jù)存儲管理,備份服務(wù)器、備份管理軟件與智能存儲設(shè)備的有機結(jié)合是這一目標實現(xiàn)的基礎(chǔ)。
網(wǎng)絡(luò)數(shù)據(jù)存儲管理系統(tǒng)的工作原理是在網(wǎng)絡(luò)上選擇一臺應(yīng)用服務(wù)器(當然也可以在網(wǎng)絡(luò)中另配一臺服務(wù)器作為專用的備份服務(wù)器)作為網(wǎng)絡(luò)數(shù)據(jù)存儲管理服務(wù)器,安裝網(wǎng)絡(luò)數(shù)據(jù)存儲管理服務(wù)器端軟件,作為整個網(wǎng)絡(luò)的備份服務(wù)器。在備份服務(wù)器上連接一臺大容量存儲設(shè)備(磁帶庫、光盤庫)。在網(wǎng)絡(luò)中其他需要進行數(shù)據(jù)備份管理的服務(wù)器上安裝備份客戶端軟件,通過局域網(wǎng)將數(shù)據(jù)集中備份管理到與備份服務(wù)器連接的存儲設(shè)備上。
網(wǎng)絡(luò)數(shù)據(jù)存儲管理系統(tǒng)的核心是備份管理軟件,通過備份軟件的計劃功能,可為整個企業(yè)建立一個完善的備份計劃及策略,并可借助備份時的呼叫功能,讓所有的服務(wù)器備份都能在同一時間進行。備份軟件也提供完善的災(zāi)難恢復手段,能夠?qū)浞萦布膬?yōu)良特性完全發(fā)揮出來,使備份和災(zāi)難恢復時間大大縮短,實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)備份的全自動智能化管理。目前在數(shù)據(jù)存儲領(lǐng)域可以完成網(wǎng)絡(luò)數(shù)據(jù)備份管理的軟件產(chǎn)品主要有Legato NetWorker、IBM ADSM、Veritas NetBackup等。 備份策略及恢復計劃日常備份制度描述了每天的備份以什么方式、使用什么備份介質(zhì)進行,是系統(tǒng)備份方案的具體實施細則。在制訂完畢后,應(yīng)嚴格按照制度進行日常備份,否則將無法達到備份方案的目標。數(shù)據(jù)備份有多種方式:全備份、增量備份、差分備份、按需備份等。
全備份:備份系統(tǒng)中所有的數(shù)據(jù);
增量備份:只備份上次備份以后有變化的數(shù)據(jù);
差分備份:只備份上次完全備份以后有變化的數(shù)據(jù)。
按需備份:根據(jù)臨時需要有選擇地進行數(shù)據(jù)備份。
全備份所需時間最長,但恢復時間最短,操作最方便,當系統(tǒng)中數(shù)據(jù)量不大時,采用全備份最可靠;但是隨著數(shù)據(jù)量的不斷增大,我們將無法每天做全備份,而只能在周末進行全備份,其它時間我們采用所用時間更少的增量備份或采用介于兩者之間的差分備份。各種備份的數(shù)據(jù)量不同:全備份>差分備份>增量備份。在備份時要根據(jù)它們的特點靈活使用。
數(shù)據(jù)存儲基本策略的設(shè)定
數(shù)據(jù)庫全備份:選擇在周五(或周六)自動進行。
數(shù)據(jù)庫增量備份:每晚作批前和批后由Unix或其它主機系統(tǒng)執(zhí)行,批處理人員觸發(fā)或由系統(tǒng)自動執(zhí)行。
文件全備份:將主機系統(tǒng)和其它服務(wù)器的數(shù)據(jù)作全備份,選擇在周日自動進行。
文件增量備份:在周一到周四(或周五)之間備份文件的增量。
系統(tǒng)全量:在月初的周日備份系統(tǒng)及數(shù)據(jù)庫的全量。
系統(tǒng)增量:在其余的時間僅備份系統(tǒng)和數(shù)據(jù)庫配置的增量。
跟蹤備份:實時備份系統(tǒng)增量(事務(wù)日志備份)。
結(jié)合以上備份策略,從便于管理和恢復的角度考慮,制訂數(shù)據(jù)分組和存儲介質(zhì)池對應(yīng)策略,將數(shù)據(jù)分門別類放在不同編號的磁帶組上,并建立不同的存取權(quán)限。
建議建立:
數(shù)據(jù)庫介質(zhì):專門放置數(shù)據(jù)庫信息。
文件介質(zhì):除數(shù)據(jù)庫以外的文件。
數(shù)據(jù)庫日志和系統(tǒng)日志介質(zhì):安全稽核和系統(tǒng)恢復的重要數(shù)據(jù)記錄須較長時間保存,建議由安全管理官員在NT一側(cè)建立管理,形成與主機系統(tǒng)管理人員分離的運行數(shù)據(jù)記錄。
系統(tǒng)介質(zhì):備份系統(tǒng)和系統(tǒng)配置等的變化,做到快速恢復系統(tǒng)。 數(shù)據(jù)備份工作過程自動備份進程由備份服務(wù)器發(fā)動。每天晚上,自動按照事先制訂的時間表所要求內(nèi)容,進行增量或全量的備份。由于每天的備份被適當?shù)鼐猓逯祩浞輸?shù)據(jù)量在周五(或周六)和周日發(fā)生。
批前及批后備份在Unix或其它主機端發(fā)起。批處理人員鍵入觸發(fā)備份命令,自動按要求備份數(shù)據(jù)庫有關(guān)內(nèi)容。
其它文件的自由備份。進入軟件交互菜單,選擇要求備份的文件后備份。 在線跟蹤備份。配合數(shù)據(jù)存儲管理軟件的數(shù)據(jù)庫在線備份功能,可定義實時或定時將日志備份。
災(zāi)難備份異地存放介質(zhì)的克隆。自動復制每日完成后的數(shù)據(jù),以存放異地作災(zāi)難恢復。 災(zāi)難恢復災(zāi)難恢復措施在整個備份制度中占有相當重要的地位。因為它關(guān)系到系統(tǒng)在經(jīng)歷災(zāi)難后能否迅速恢復。災(zāi)難恢復操作通??梢苑譃閮深悺5谝活愂侨P恢復,第二類是個別文件恢復,還有一種值得一提的是重定向恢復。
全盤恢復:
全盤恢復一般應(yīng)用在服務(wù)器發(fā)生意外災(zāi)難導致數(shù)據(jù)全部丟失、系統(tǒng)崩潰或是有計劃的系統(tǒng)升級、系統(tǒng)重組等,也稱為系統(tǒng)恢復。
個別文件恢復:
由于操作人員的水平不高,個別文件恢復可能要比全盤恢復常見得多,利用網(wǎng)絡(luò)備份系統(tǒng)的恢復功能,我們很容易恢復受損的個別文件。只需瀏覽備份數(shù)據(jù)庫或目錄,找到該文件,觸動恢復功能,軟件將自動驅(qū)動存儲設(shè)備,加載相應(yīng)的存儲媒體,然后恢復指定文件。
重定向恢復:
重定向恢復是將備份的文件恢復到另一個不同的位置或系統(tǒng)上去,而不是進行備份操作時它們當時所在的位置。重定向恢復可以是整個系統(tǒng)恢復也可以是個別文件恢復。重定向恢復時需要慎重考慮,要確保系統(tǒng)或文件恢復后的可用性。
為了防備數(shù)據(jù)丟失,我們需要做好詳細的災(zāi)難恢復計劃,同時還要定期進行災(zāi)難演練。每過一段時間,應(yīng)進行一次災(zāi)難演習??梢岳锰蕴臋C器或多余的硬盤進行災(zāi)難模擬,以熟練災(zāi)難恢復的操作過程,并檢驗所生成的災(zāi)難恢復軟盤和災(zāi)難恢復備份是否可靠。
結(jié)束語
一個完整的災(zāi)難備份及恢復方案,應(yīng)包括:備份硬件、備份軟件、備份制度和災(zāi)難恢復計劃四個部分。選了先進的備份硬件后,我們決不能忽略備份軟件的選擇,因為只有優(yōu)秀的備份件才能充分發(fā)揮硬件的先進功能,保證快速、有效的數(shù)據(jù)備份和恢復。還需要據(jù)企業(yè)自身情況制定日常備份制度和災(zāi)難恢復措施,并由管理人員切實執(zhí)行備份制度,否則系統(tǒng)安全將僅僅是紙上談兵。