Date: 14 5 月, 2022
可用性 SLA:FT、高可用性和災難恢復——從哪裡開始
可以公平地說,在這個我們生活的許多方面都由技術驅動的現代時代,我們生活在一個瞬息萬變的世界中。例如,只需單擊一個按鈕,我們每週的雜貨訂單就會送到我們家門口。我們可以立即購買活動或旅行的門票。甚至這些天,訂購一輛全新的汽車,而不必去展廳附近的任何地方和一個咄咄逼人的銷售人員打交道。 我們被這個便利的世界寵壞了。
但是,讓我們想想必須支持這種服務水平的所有供應商和服務提供商。他們必須保持高水平的投資,以確保他們的底層基礎設施(特別是他們的 IT 基礎設施)的構建和運營方式能夠支持這種“永遠在線”的期望。應用程序和數據庫必須始終運行,以滿足客戶需求並最大限度地提高公司的生產力和收入。IT 業務連續性的重要性與以往一樣重要。
許多 IT 可用性概念都在流傳,例如容錯 (FT) ,高可用性(哈)和災難恢復(博士) .但這可能會引發更多問題。這些可用性概念之間有什麼區別?其中哪一個適合我的基礎架構?它們可以組合或互換嗎? 任何可用性計劃的第一步也是最重要的一步是建立明確的應用程序/數據庫可用性服務級別協議 (SLA)。然後,這定義了最合適的可用性方法。
什麼是 SLA?
在某種程度上,我們都知道 SLA 是什麼,但對於本次討論,讓我們確保我們都在同一個波長上。 可用性 SLA 是服務提供商與其最終用戶之間的合同,它定義了供應商要確保的應用程序/數據庫正常運行時間和可訪問性的預期水平,並概述瞭如果商定的服務水平不符合所涉及的處罰(通常是財務)遇見了。在 IT 世界中,SLA 是根據對業務的兩個關鍵性衡量標準制定的——恢復時間目標 (RTO) 和恢復點目標 (RPO)。非常簡單,RTO 定義了在發生故障時我們需要多快恢復應用程序操作。 RPO 定義了在發生恢復情況時我們的數據需要達到的最新程度。 一旦您可以為您的應用程序和數據庫識別這些指標,這將定義您的 SLA。SLA 以百分比來衡量,因此,例如,您可能會遇到諸如 99.9% 或 99.99% 可用等術語。這些是 IT 將在給定年份為應用程序保證多少分鐘的正常運行時間和可用性的度量。 一般來說,更多的保護意味著更多的成本。 因此,估算應用程序或數據庫停機一小時的成本並將此 SLA 用作選擇具有良好業務意義的解決方案的工具至關重要。
一旦我們有了 SLA,我們就可以就哪種類型的解決方案(FT、HA、DR 或它們的組合)做出最適合我們可用性需求的方法的業務決策。
什麼是容錯 (FT)?
FT 提供了令人印象深刻的可用性 SLA,達到 99.999%。在現實世界中,FT 解決方案將保證一年內不超過 5.25 分鐘的停機時間。本質上,兩台相同的服務器彼此並行運行,在所謂的“鎖步”過程中以主動-主動配置同時處理兩台服務器上的事務。 如果主服務器出現故障,輔助服務器將繼續處理,不會中斷應用程序或丟失任何數據。最終用戶會很高興地沒有意識到發生了服務器故障。
這聽起來太棒了!這聽起來棒極了!為什麼我們還需要其他東西?但是等等……就像 FT 在紙上聽起來一樣棒,有一些警告需要考慮。
“鎖步”過程是一頭奇怪的野獸。它可以運行的服務器硬件類型非常挑剔,特別是在處理器方面。這個有限的硬件兼容性列表迫使 FT 解決方案位於成本範圍的高端,當您考慮兩個或更多具有相關支持和服務的 FT 集群時,成本可能高達數十萬美元。
軟件錯誤漏洞
FT 解決方案在設計時也考慮到了硬件容錯,不會過多關注任何潛在的應用程序錯誤。請記住,FT 解決方案同時運行相同的事務和進程,因此如果主服務器上出現應用程序錯誤,這也會在輔助服務器上得到復制。
什麼是高可用性 (HA)?
對於大多數 SLA,對於普通用例來說,購買和管理 FT 的成本太高了。在大多數情況下,HA 解決方案是更好的選擇。 它們以很少的成本提供幾乎相同級別的保護。HA 解決方案通過以 Active-Standby 方式部署,可提供 99.99% 的 SLA,相當於一年內停機約 52 分鐘。引入了減少的 SLA,因為在恢復操作之前活動服務器必須切換到備用服務器的一小段停機時間。好吧,這不像 FT 解決方案那樣令人印象深刻,但是對於大多數 IT 要求,HA 滿足 SLA,即使對於 CRM 和 ERP 系統等超關鍵應用程序也是如此。
同樣重要的是,高可用性解決方案與應用程序無關,並且還可以在應用程序故障以及硬件或操作系統故障時管理服務器的故障轉移。 它們還允許更多的配置靈活性。沒有類似 FT 的硬件兼容性列表需要處理,因為在大多數情況下,它們將在支持底層操作系統的任何平台上運行。
災難恢復 (DR) 如何融入其中?
與 FT 和 HA 一樣,DR 也可用於支持關鍵業務功能。 但是,DR 可以與 FT 和 HA 結合使用。容錯和高可用性專注於維護本地級別的正常運行時間,例如在數據中心(或云可用性區域)內。災難恢復提供冗餘站點或數據中心以在災難襲擊主數據中心時進行故障轉移。
這是什麼意思呢?
歸根結底,沒有錯誤或正確的可用性方法可供選擇。它歸結為您試圖保護的業務流程的重要性以及解決方案的基本經濟性。在某些情況下,這是不費吹灰之力的。例如,如果您正在運行核電站,我會覺得關鍵操作受到 FT 系統的保護會更舒服。 讓我們面對現實吧,您可能不希望那裡的服務有任何中斷。但是對於大多數 IT 環境,關鍵的正常運行時間也可以通過 HA 以更易於消化的價格提供。
如何選擇:FT、HA和DR?
- 首先,詳細了解您的業務運營並確定停機成本。
- 建立 SLA 後,權衡選擇的可用性解決方案的成本與任何潛在停機時間的成本。
- 在選擇可用性解決方案時,請考慮易於部署和易於使用,因為這些也會影響可用性解決方案的總體 TCO。
IT 系統很強大,但在最不方便的時候它們可能會出錯。 FT、HA 和 DR 是您的保險單,可在這個以即時和便利為主導的世界中向客戶提供 SLA 時為您提供保護。
經授權轉載西歐