Date: พฤษภาคม 14, 2022
ความพร้อมใช้งาน SLA: FT ความพร้อมใช้งานสูงและการกู้คืนจากภัยพิบัติ – จะเริ่มต้นที่ไหน
เป็นเรื่องที่ยุติธรรมที่จะบอกว่าในยุคสมัยใหม่นี้ที่ชีวิตของเราขับเคลื่อนด้วยเทคโนโลยีในหลายแง่มุม เราอยู่ในโลกที่ชั่วพริบตาตัวอย่างเช่น เมื่อคลิกปุ่ม คำสั่งซื้อของชำประจำสัปดาห์จะมาถึงหน้าประตูบ้านของเราเราสามารถซื้อตั๋วสำหรับกิจกรรมหรือการเดินทางได้ทันทีหรือแม้แต่ทุกวันนี้ สั่งรถใหม่โดยไม่ต้องไปที่ไหนใกล้โชว์รูมและจัดการกับพนักงานขายที่เร่งรีบ เราหลงอยู่ในโลกแห่งความสะดวกสบายนี้
แต่ขอสงวนความคิดสำหรับผู้ขายและผู้ให้บริการทั้งหมดที่ต้องสนับสนุนบริการระดับนี้พวกเขาต้องรักษาระดับการลงทุนในระดับสูงเพื่อให้แน่ใจว่าโครงสร้างพื้นฐานพื้นฐานของพวกเขา (และโดยเฉพาะโครงสร้างพื้นฐานด้านไอทีของพวกเขา) ถูกสร้างขึ้นและดำเนินการในลักษณะที่สามารถรองรับความคาดหวัง "แบบต่อเนื่อง" นี้ได้แอปพลิเคชันและฐานข้อมูลต้องทำงานตลอดเวลา เพื่อตอบสนองความต้องการของลูกค้าและเพิ่มประสิทธิภาพการทำงานและรายได้ของบริษัทให้สูงสุดความสำคัญของความต่อเนื่องของธุรกิจไอทีมีความสำคัญอย่างที่ไม่เคยมีมาก่อน
แนวคิดเกี่ยวกับความพร้อมใช้งานด้านไอทีจำนวนมากถูกกล่าวถึงเช่น ความทนทานต่อความผิดพลาด (FT) , ความพร้อมใช้งานสูง (ฮา) และ การกู้คืนระบบ (DR) .แต่สิ่งนี้สามารถทำให้เกิดคำถามเพิ่มเติมอะไรคือความแตกต่างระหว่างแนวคิดเกี่ยวกับความพร้อมใช้งานเหล่านี้?ข้อใดจะเหมาะกับโครงสร้างพื้นฐานของฉันสามารถรวมกันหรือเปลี่ยนได้หรือไม่? ขั้นตอนแรกและสำคัญที่สุดสำหรับความคิดริเริ่มด้านความพร้อมใช้งานใดๆ คือการสร้างข้อตกลงระดับบริการความพร้อมใช้งานของแอปพลิเคชัน/ฐานข้อมูล (SLA) ที่ชัดเจนสิ่งนี้จะกำหนดแนวทางความพร้อมใช้งานที่เหมาะสมที่สุด
SLA คืออะไร?
ในระดับหนึ่ง เราทุกคนรู้ดีว่า SLA คืออะไร แต่สำหรับการสนทนานี้ ให้ตรวจสอบให้แน่ใจว่าเราอยู่ในความยาวคลื่นเดียวกัน SLA ความพร้อมใช้งานคือสัญญาระหว่างผู้ให้บริการและผู้ใช้ปลายทางซึ่งกำหนดระดับที่คาดหวังของเวลาทำงานของแอปพลิเคชัน/ฐานข้อมูลและความสามารถในการเข้าถึงที่ผู้ขายจะต้องรับรองและร่างบทลงโทษที่เกี่ยวข้อง (โดยปกติคือด้านการเงิน) หากระดับบริการที่ตกลงกันไว้ไม่ พบกันในโลกไอทีนั้น SLA ถูกสร้างขึ้นจากมาตรการสำคัญสองประการต่อธุรกิจ – Recovery Time Objectives (RTO) และ Recovery Point Objectives (RPO)พูดง่ายๆ ก็คือ RTO กำหนดว่าเราต้องการการกู้คืนการดำเนินการของแอปพลิเคชันอย่างรวดเร็วเพียงใดในกรณีที่เกิดความล้มเหลว RPO กำหนดว่าข้อมูลของเราจะเป็นปัจจุบันอย่างไรในกรณีที่เกิดสถานการณ์การกู้คืน เมื่อคุณระบุเมตริกเหล่านี้สำหรับแอปพลิเคชันและฐานข้อมูลได้แล้ว การดำเนินการนี้จะกำหนด SLA ของคุณSLA จะวัดเป็นเปอร์เซ็นต์ ตัวอย่างเช่น คุณอาจพบเงื่อนไขต่างๆ เช่น 99.9% หรือ 99.99% ที่พร้อมใช้งานสิ่งเหล่านี้คือการวัดจำนวนนาทีของเวลาทำงานและความพร้อมใช้งานที่ฝ่ายไอทีจะรับประกันสำหรับแอปพลิเคชันในปีที่กำหนด โดยทั่วไป การปกป้องที่มากขึ้นหมายถึงต้นทุนที่มากขึ้น ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องประเมินค่าใช้จ่ายของการหยุดทำงานหนึ่งชั่วโมงสำหรับแอปพลิเคชันหรือฐานข้อมูล และใช้ SLA นี้เป็นเครื่องมือในการเลือกโซลูชันที่เหมาะสมกับธุรกิจ
เมื่อเรามี SLA แล้ว เราสามารถตัดสินใจทางธุรกิจเกี่ยวกับประเภทของโซลูชัน – FT, HA, DR หรือการผสมผสานของโซลูชันนั้น – เป็นแนวทางที่เหมาะสมที่สุดสำหรับความต้องการด้านความพร้อมใช้งานของเรา
Fault Tolerance (FT) คืออะไร?
FT มอบ SLA ความพร้อมใช้งานที่น่าประทับใจมากที่ 99.999%ในแง่การใช้งานจริง โซลูชัน FT จะรับประกันการหยุดทำงานไม่เกิน 5.25 นาทีในหนึ่งปีโดยพื้นฐานแล้ว เซิร์ฟเวอร์ที่เหมือนกันสองเครื่องจะทำงานคู่ขนานกัน ประมวลผลธุรกรรมบนเซิร์ฟเวอร์ทั้งสองเครื่องพร้อมกันในการกำหนดค่าแบบแอ็คทีฟแอ็คทีฟในสิ่งที่เรียกว่ากระบวนการ "ล็อกสเต็ป" หากเซิร์ฟเวอร์หลักล้มเหลว เซิร์ฟเวอร์รองจะประมวลผลต่อไปโดยไม่หยุดชะงักกับแอปพลิเคชันหรือข้อมูลสูญหายผู้ใช้ปลายทางจะมีความสุขโดยไม่รู้ตัวว่าเซิร์ฟเวอร์ล้มเหลว
ฟังดูยอดเยี่ยม!ฟังดูยอดเยี่ยม!ทำไมเราถึงต้องการอะไรอีก?แต่เดี๋ยวก่อน…มันยอดเยี่ยมเหมือน FT ฟังบนกระดาษ มีข้อแม้บางประการที่ต้องพิจารณา
กระบวนการ “ล็อกสเต็ป” เป็นสัตว์ประหลาดเป็นเรื่องจุกจิกมากเกี่ยวกับประเภทของฮาร์ดแวร์เซิร์ฟเวอร์ที่สามารถทำงานได้ โดยเฉพาะอย่างยิ่งในแง่ของโปรเซสเซอร์รายการความเข้ากันได้ของฮาร์ดแวร์แบบจำกัดนี้บังคับให้โซลูชัน FT อยู่ในจุดสิ้นสุดของราคาที่สูงกว่า ซึ่งอาจสูงถึงหลายแสนดอลลาร์เมื่อคุณคำนึงถึงคลัสเตอร์ FT สองคลัสเตอร์ขึ้นไปด้วยการสนับสนุนและบริการที่เกี่ยวข้อง
ช่องโหว่ข้อผิดพลาดของซอฟต์แวร์
โซลูชัน FT ยังได้รับการออกแบบโดยคำนึงถึงความทนทานต่อข้อผิดพลาดของฮาร์ดแวร์ และไม่สนใจข้อผิดพลาดของแอปพลิเคชันใดๆ ที่อาจเกิดขึ้นมากนักโปรดจำไว้ว่า โซลูชัน FT กำลังเรียกใช้ธุรกรรมและกระบวนการเดียวกันในเวลาเดียวกัน ดังนั้นหากมีข้อผิดพลาดของแอปพลิเคชันบนเซิร์ฟเวอร์หลัก สิ่งนี้จะถูกจำลองบนเซิร์ฟเวอร์รองด้วย
ความพร้อมใช้งานสูง (HA) คืออะไร?
สำหรับ SLA ส่วนใหญ่ FT นั้นแพงเกินไปที่จะซื้อและจัดการสำหรับกรณีการใช้งานทั่วไปในกรณีส่วนใหญ่ โซลูชัน HA เป็นตัวเลือกที่ดีกว่า พวกเขาให้การป้องกันในระดับเกือบเท่ากันโดยมีค่าใช้จ่ายเพียงเล็กน้อยโซลูชัน HA มี SLA 99.99% ซึ่งเท่ากับเวลาหยุดทำงานประมาณ 52 นาทีในหนึ่งปี โดยปรับใช้ในลักษณะ Active-Standbyมีการแนะนำ SLA ที่ลดลง เนื่องจากมีช่วงการหยุดทำงานเล็กน้อยซึ่งเซิร์ฟเวอร์ที่ใช้งานอยู่ต้องสลับไปยังเซิร์ฟเวอร์สแตนด์บายก่อนที่การดำเนินการจะกลับมาทำงานต่อตกลง นี่ไม่ได้น่าประทับใจเท่ากับโซลูชัน FT แต่สำหรับข้อกำหนดด้านไอทีส่วนใหญ่ HA ตรงตาม SLA แม้กระทั่งสำหรับแอปพลิเคชันที่มีความสำคัญยิ่งยวด เช่น ระบบ CRM และ ERP
โซลูชันความพร้อมใช้งานสูงที่มีความสำคัญเท่าเทียมกันคือแอปพลิเคชันที่ไม่เชื่อเรื่องพระเจ้ามากกว่า และยังสามารถจัดการการเฟลโอเวอร์ของเซิร์ฟเวอร์ในกรณีที่แอปพลิเคชันล้มเหลว เช่นเดียวกับความล้มเหลวของฮาร์ดแวร์หรือระบบปฏิบัติการ พวกเขายังให้ความยืดหยุ่นในการกำหนดค่ามากขึ้นไม่มีรายการความเข้ากันได้ของฮาร์ดแวร์ที่เหมือนกับ FT ที่จะจัดการ เนื่องจากในบางครั้งพวกเขาจะทำงานบนแพลตฟอร์มใดๆ ที่รองรับระบบปฏิบัติการพื้นฐาน
Disaster Recovery (DR) เข้ากับรูปภาพได้อย่างไร?
เช่นเดียวกับ FT และ HA สามารถใช้ DR เพื่อสนับสนุนฟังก์ชันทางธุรกิจที่สำคัญได้ อย่างไรก็ตาม DR สามารถใช้ร่วมกับ FT และ HA ได้Fault Tolerance และ High Availability มุ่งเน้นไปที่การรักษาสภาพพร้อมใช้งานในระดับท้องถิ่น เช่น ภายในดาต้าเซ็นเตอร์ (หรือโซนความพร้อมใช้งานของระบบคลาวด์)DR ส่งมอบไซต์หรือศูนย์ข้อมูลสำรองเพื่อเฟลโอเวอร์ในกรณีที่เกิดภัยพิบัติขึ้นกับดาต้าเซ็นเตอร์หลัก
มันไม่สิ่งที่ทุกคนหมายถึงอะไร?
ท้ายที่สุดแล้ว ไม่มีทางที่ผิดหรือถูกที่ต้องทำประเด็นนี้สะท้อนถึงความสำคัญของกระบวนการทางธุรกิจที่คุณพยายามปกป้องและเศรษฐศาสตร์ขั้นพื้นฐานของโซลูชันในบางสถานการณ์ก็เป็นเกมง่ายๆตัวอย่างเช่น หากคุณใช้โรงไฟฟ้านิวเคลียร์ ฉันจะรู้สึกสบายใจมากกว่าที่ระบบ FT ปกป้องการปฏิบัติงานที่สำคัญ ยอมรับเถอะว่าคุณอาจไม่ต้องการให้มีการหยุดชะงักในการให้บริการที่นั่นแต่สำหรับสภาพแวดล้อมไอทีส่วนใหญ่ เวลาทำงานที่สำคัญสามารถจัดส่งได้ด้วย HA ในราคาที่ย่อยง่ายกว่ามาก
วิธีการเลือก: FT, HA และ DR?
- ก่อนอื่น ทำความเข้าใจการดำเนินธุรกิจของคุณอย่างละเอียด และระบุต้นทุนของการหยุดทำงาน
- เมื่อ SLA ของคุณได้รับการกำหนดแล้ว ให้ชั่งน้ำหนักต้นทุนของโซลูชันความพร้อมใช้งานที่เลือกเทียบกับต้นทุนของการหยุดทำงานที่อาจเกิดขึ้น
- เมื่อเลือกโซลูชันความพร้อมใช้งานของคุณ ให้พิจารณาความง่ายในการใช้งานและการใช้งานง่าย เนื่องจากสิ่งเหล่านี้จะส่งผลต่อ TCO โดยรวมของโซลูชันความพร้อมใช้งาน
ระบบไอทีนั้นแข็งแกร่ง แต่อาจผิดพลาดได้ในเวลาที่ไม่สะดวกที่สุด FT, HA และ DR เป็นกรมธรรม์ประกันภัยของคุณที่จะปกป้องคุณเมื่อส่งมอบ SLA ให้กับลูกค้าในโลกที่นำความสะดวกและรวดเร็วทันใจ
ทำซ้ำโดยได้รับอนุญาตจาก SIOS