IT服務持續性管理
ITSCM,即IT服務持續性管理(IT Ser vice Continuity Management),是指負責預防災難發生、增強IT基礎架構的恢復能力(Resilience)和容錯能力(Fault Tolerance),并在災難發生后迅速恢復IT服務正常運作的服務管理流程。
IT服務持續管理的目標是,通過確保在災難發生之后IT基礎架構和IT服務(包括相應的支持服務和服務臺)能夠在規定的時間內得以恢復從而支持總體的業務持續管理(BCM)。IT服務持續性管理可能有多個不同的具體目標,但其范圍必須基于業務目標而確定。在評估業務持續性所面臨的風險時,需要確定這些風險是否處于IT服務持續性管理流程的范圍之內。
圖-1中顯示了IT服務持續性管理的活動。
啟動階段
服務連續性管理通常在可用性管理結束后繼續解決可用性管理無法或沒有解決的可用性風險。
一旦風險被確定,用戶必須在IT人員的幫助下決定哪些風險需要緩解,哪些風險需要承擔。
需求和戰略階段
? 業務影響分析
? 風險評估
首先,必須確認相關的IT組件(資產),包括建筑物、系統和數據等。有效的資產確認要求有關每個組件的所有者和用途都必須文檔化。
其次,要分析這些資產所面臨的威脅以及這些威脅之間的相關程度,并估計災難發生的可能性(高、中、低)。例如,不穩定的電力供應和一個易于遭受風暴的地區這兩個因素就存在較大的相關性。
接著,要確認這些資產的薄弱環節,并進行分類(高、中、低)。一個避雷裝置可以保護建筑物免受雷擊的破壞,但雷擊仍然可能嚴重地影響到網絡和計算機系統。
最后,需要根據各IT組件的具體情況評估威脅和薄弱環節,從而評估風險的級別。
在評估風險時應當考慮在第1個階段已經定義好的IT服務持續性管理流程的范圍。例如,對于一些小的問題可以由服務臺和(或)事故管理流程來應付,或者由可用性管理措施來解決。有些業務風險則不屬于IT服務持續性管理的范圍。
不同的組織對災難有不同的定義,通常是通過業務影響分析來測量業務損失的影響,如財務損失,聲譽和規則的破壞。
實施階段
? 制定IT服務連續性計劃
大部分的企業都希望在風險降低和恢復規劃方面達到某種平衡。風險降低措施、業務恢復行動以及IT恢復方案之間是有明顯的區別的。風險降低(預防)和恢復規劃(恢復方案)之間的關系將在下面進行討論。
威脅是不可能完全消除的,比如在大樓附近的一場火災也可能燒毀你的大樓。此外,降低某一種風險又可能導致另一種風險的增加,如外包就可能增加安全方面的風險。
? 預防措施
在充分考慮了預防措施的成本和風險的級別后,可以根據風險分析的結果采取預防措施。有些措施的目標是減小意外事故發生的概率或影響,因此也可以縮小恢復計劃的范圍。例如,可以針對灰塵、超高溫或超低溫、火災、漏水、電力中斷以及失竊制定預防措施,而將其它風險留給恢復計劃來處理。
要害/關鍵控制法是用得最多的預防形式。它可以消除大部分的薄弱環節,例如通過建立自己的電力和水供應儲備來應對電力和水供應方面的薄弱環節。但是,隨著非現場恢復變得越來越困難,這種方法的應用也會帶來其它諸如網絡中斷或網絡擁塞等薄弱環節。要害/關鍵控制法可適用于大型的計算機中心,這些大型的計算機中心一般都太復雜以至于不能通過恢復計劃來解決。如今,增強要害/關鍵控制法的快速反應能力是至關重要的,即及時發現問題并在其失控之前將其解決的能力。
?選擇恢復方案
如果還存在部分沒有被預防措施消除掉的殘余風險,則應當將這部分風險交由恢復規劃來處理。恢復方案應該提供下列措施來確保業務的持續性:
人員和場地-如何應對其它假定情況的發生,所需要的家具,運輸和旅行的距離,以及支持業務所需要的關鍵人員;
? 組織計劃
? 測試
運作管理階段
有效的流程控制取決于關鍵成功因素、管理報告和關鍵績效指標,關鍵成功因素(CSF)和績效指標(KPI)
IT服務持續性管理的成功依賴于:
? 有效的配置管理流程;
? 整個組織的支持和承諾;
? 最新的和有效的工具;
? 對流程中涉及的所有人員進行專門的培訓;
? 對恢復計劃進行定期測試。
績效指標包括:
? 確認的恢復計劃中的缺點的數量;
? 由于災難所導致的收益減少。
? 流程的成本。
管理報告
在災難發生后,必須提供一份有關災難發生原因及影響,以及如何成功應付的報告。所有觀察到的弱點都必須在改進計劃中得到處理。
IT服務持續管理流程所提供的管理報告還應當包括恢復計劃測試的評價報告。這些報告被用來保證流程的質量。該流程還需要報告由于發生重大變更而導致恢復計劃作出變更的數量。有關新出現的威脅也應當納入報告范圍。
職能和角色
IT服務持續性經理的職責是實施和維護ITSCM流程,從而保證該流程任何時候都能滿足業務持續性管理的需求。IT服務持續性經理還需要在業務持續性管理中代表IT服務部門。IT服務持續性管理涵蓋了業務持續性管理中的諸多方面,包括業務持續性管理中威脅IT服務持續性的一些風險以及在影響不可預見情形下恢復服務的能力。它涉及一個企業持續提供預先確定和協定的用以支持最低業務需要的IT服務的能力。通常IT服務持續性管理和災難恢復是互換的。事實上,IT服務持續性管理就像是災難恢復的擴充。只是災難恢復是被動的,而IT服務持續性管理是主動的,是關于整個系統的復原能力的。它以戰略、基礎架構、建筑以及服務持續性的方式來看災難恢復。
IT戰略一般是通過信息技術、系統和服務來定義組織的方向和目標的。從這個角度講,IT服務持續性戰略可以被定義成為確保IT服務持續性戰略的政策和標準能直接、明確地支持IT戰略目標。IT服務持續性戰略的六個要素是:了解業務需要,約定服務等級;檢查IT戰略方案及更新目標;定期實行風險評估及依賴性建模型化;考慮如何支持ITSC戰略;運行、維護以及審核持續性和恢復計劃;監控改善服務的表現。
IT服務持續性是一個在機構內部很難去推行的理念,是一個專業領域。然而,許多組織可以委任涉及該項目的專家進行管理,這必然會使組織受益匪淺并將其資質提升到認證水平。像Unisys這樣的組織可以協助企業IT服務持續性管理,包括骨干網絡的設計,DR運作咨詢,基礎架構的建立,測試和研究,基礎架構、安全監測和管理,數據中心服務,應用托管或管理服務,經營管理服務,并制定一項全面的IT服務持續性計劃。這不僅為已知威脅做準備,也為建立操作彈性、從未知威脅或計劃外的事件中恢復做準備。
許多經理都認為IT服務持續性管理是一種奢侈,為此他們不愿意花費任何資源。然而,統計資料表明許多具有破壞性的災難實際上經常發生。
“災難”比“事故”要嚴重得多。它是一次業務中斷。這意味著在一次災難發生后,全部或部分業務不能正常運作。常見的災難包括火災、雷擊、水災、失竊以及暴力破壞等。此外,恐怖襲擊也變得越來越常見。互聯網也可能帶來災難,如能夠中斷整個組織的通信聯系的“拒絕服務(DoS)”式攻擊。有些公司本來是可以阻止此類嚴重問題發生的,如果其考慮和制定了相關的業務持續性計劃。業務運作越來越依賴于IT服務,這意味著服務失敗的影響也越來越大和越來越不可接受。事實上,對很多公司來說,做業務就意味著使用IT,離開IT他們幾乎不能創造任何收入。因此,考慮如何保證業務運作的持續性是非常重要的。
傳統的意外事故規劃通常只是被IT部門用來免除其責任的一種形式。然而,如今IT已經越來越與業務運作的許多方面密切結合在一起。與傳統的意外事故規劃只是反應性的(在災難發生之后該做什么)流程不同,新的IT服務持續性管理流程側重于預防,即避免災難的發生。
當我們看看在發生災難時一個企業需要做什么的時候,我們就會明白有兩種類型的活動必須同時進行。企業的IT機構必須執行災難恢復計劃恢復IT基礎架構、應用程序和需要支持關鍵業務流程的數據。在IT基礎架構正在恢復的過程中,企業需要用人工程序進行盡可能多的業務。如今,企業更應該實現IT服務持續性管理。