Date: 12月 19, 2018
循序渐进:如何在没有共享存储的Microsoft Azure IaaS中配置Linux故障转移群集#azan #sanless
在本分步指南中,我将向您介绍在Microsoft Azure IaaS(基础架构即服务)中配置高可用性2节点MySQL群集(以及见证服务器)所需的所有步骤。 该指南包括适当的屏幕截图,shell命令和代码片段。 我假设您对Microsoft Azure有点熟悉,并且已经拥有一个具有关联订阅的Azure帐户。 如果没有,您今天就可以注册一个免费帐户。 我还将假设您具有基本的Linux系统管理技能,并了解基本的故障转移群集概念,如虚拟IP等。
免责声明:Azure是一个快速发展的目标。 它每天都在变得越来越好!因此,功能/屏幕/按钮必然会随着时间的推移而发生变化,因此您的体验可能会与您在下面看到的略有不同。 虽然本指南将向您展示如何使MySQL数据库具有高可用性,但您当然可以调整此信息和流程以保护其他应用程序或数据库,如SAP,Oracle,PostgreSQL,NFS文件服务器等。以下是在Microsoft Azure IaaS中创建高可用性MySQL数据库的高级步骤:
- 创建资源组
- 创建一个虚拟网络
- 创建存储帐户
- 在可用性集中创建虚拟机
- 设置虚拟机静态IP地址
- 将数据磁盘添加到群集节点
- 创建入站安全规则以允许VNC访问
- Linux OS配置
- 安装和配置MySQL
- 安装和配置群集
- 创建内部负载均衡器
- 测试群集连接
概观
本文将介绍在没有共享存储的Microsoft Azure IaaS中配置Linux故障转移群集的步骤。它将介绍如何在单个Azure区域中创建集群。 由于新的Azure资源管理器(ARM),群集节点(node1,node2和见证服务器)将驻留在可用性集(3个不同的故障域和更新域)中。我们将使用新的Azure资源管理器创建所有资源。配置如下所示:将使用以下IP地址:
- node1:10.0.0.4
- node2:10.0.0.5
- 见证人:10.0.0.6
- 虚拟/“浮动”IP:10.0.0.99
- MySQL端口:3306
创建资源组
首先,创建一个资源组。 您的资源组最终将包含与我们的集群部署相关的所有各种对象:虚拟机,虚拟网络,存储帐户等。 在这里,我们将调用我们新创建的资源组“cluster-resources”。 选择您所在地区时请注意。 您的所有资源都需要位于同一区域内。 在这里,我们将把所有内容部署到“美国西部”地区:
创建虚拟网络(VNet)
创建虚拟网络将是您在没有共享存储的Microsoft Azure IaaS中配置Linux故障转移群集的下一步。虚拟网络是Azure云中专用于您的隔离网络。 您可以完全控制IP地址块和子网,路由,安全策略(即防火墙),DNS设置等内容。 您将在您的虚拟网络中启动Azure Iaas虚拟机(VM)。 每当您获得选项时,请确保选择“资源管理器”作为部署模型:为新虚拟网络命名(“虚拟网络”),并确保选择在上一步骤中创建的资源组(“群集 – 资源”)。 您的虚拟网络需要与资源组位于同一区域。 我们将保留IP地址和子网值作为默认值。
创建存储帐户
在配置任何虚拟机之前,您需要创建存储它们的存储帐户。 同样,请确保在任何时候选择“资源管理器”作为部署模型:接下来,为新存储帐户命名。 存储帐户名称在* ALL * Azure中必须是唯一的。 (存储在Azure存储中的每个对象都具有唯一的URL地址。存储帐户名称构成该地址的子域。)在此示例中,我将存储帐户称为“linuxclusterstorage”,但您需要在设置自己的存储帐户时选择不同的存储帐户。根据您的要求和预算选择存储类型。 为了本指南的目的,我选择了“Standard-LRS”(即 本地冗余)以最小化成本。确保您的新存储帐户已添加到您在同一位置(本示例中为“West US”)的步骤1(“cluster-resources”)中创建的资源组中:
在可用性集中创建虚拟机
我们将在本指南中配置3台虚拟机。 前两个VM(我称之为“node1”和“node2”)将作为集群节点运行,能够将MySQL数据库及其相关资源联机。 第三个VM将充当群集的见证服务器,以增强对裂脑的保护。为确保最大可用性,所有3个VM都将添加到同一可用性集中,以确保它们最终位于不同的故障域和更新域中。
创建“node1”VM
创建第一个VM(“node1”)。 在本指南中,我们将使用CentOS 6.X:确保使用Resource Manager部署模型。 默认情况下应该选择:为VM提供主机名(“node1”)和用户名/密码,稍后将用于SSH进入系统。 确保将此VM添加到资源组(“cluster-resources”),并且它与所有其他资源位于同一区域:接下来,选择实例大小。 有关可用的各种实例大小的更多信息,请单击此处。出于本指南的目的,我对Node1和Node2使用“A3 Standard”,以最大限度地降低成本,因为这不会运行生产工作负载。 我为见证服务器使用了更小的“A1标准”大小。 选择最适合您的实例大小。 如果您希望能够从外部世界连接到VM,请设置公共IP地址。 我这样做了以后我可以将SSH和VNC引入系统重要信息:默认情况下,您的VM不会被添加到可用性集中。 在确保创建新可用性集期间的“设置”屏幕上,我们将调用“cluster-availability-set”。 Azure资源管理器(ARM)允许您创建具有3个故障域的可用性集。 此处的默认值很好:查看VM属性,然后单击“确定”以创建第一个VM:
创建“node2”和“见证”VM
重复上述步骤两次以创建另外两个VM。 我创建了另一个名为“node2”的“A3标准”大小的VM和一个名为“见证”的“A1标准”大小的VM。这里唯一的区别是,您将把这些虚拟机添加到我们刚刚创建的可用性集(“集群可用性集”)中:您的3个虚拟机可能需要一些时间来进行配置。 完成后,您将在Azure门户的“虚拟机”屏幕上看到您的虚拟机:
设置虚拟机静态IP地址
将使用以下IP地址设置VM:
- node1:10.0.0.4
- node2:10.0.0.5
- 见证人:10.0.0.6
对每个VM重复此步骤。 选择VM并编辑网络接口选择与VM关联的网络接口,然后编辑IP地址。 选择“静态”并指定所需的IP地址:
将数据磁盘添加到群集节点
接下来,我们需要为我们的集群节点(“node1”和“node2”)添加一个额外的磁盘。 该磁盘将存储我们的MySQL数据库,稍后将在节点之间进行复制。注意:您不需要向“见证”节点添加额外的磁盘。 只有“node1”和“node2”。编辑VM,选择磁盘,然后附加新磁盘:根据工作负载选择磁盘类型(标准或高级SSD)和大小。 在这里,我在两个群集节点上创建了一个10GB标准磁盘。 就主机缓存而言,“无”或“只读”缓存很好。 我不建议使用“读/写”,因为可能会丢失数据:
创建入站安全规则以允许VNC访问
如果您的VM是网络安全组(NSG)的一部分,默认情况下,除非您在创建VM期间禁用它,否则“Azure防火墙”中打开的唯一端口是SSH(端口22)。 在本指南的后面,我将使用VNC访问“node1”的桌面并使用GUI配置集群。 创建入站安全规则以打开VNC访问。 在该指南中使用端口5902。 根据您的VNC配置进行调整。虚拟机 – >(选择节点1) – >网络接口 – >(选择网卡) – >网络安全组 – >(选择NSG) – >入站安全规则 – >添加
Linux OS配置
这里我们将离开Azure门户一段时间,并在命令行上弄脏我们,作为Linux管理员,您现在应该习惯这样做。 您没有获得Azure中Linux VM的root密码,因此一旦您以创建VM期间指定的用户身份登录,请使用“sudo”命令获取root权限:
$ sudo su -
编辑/ etc / hosts
除非您已经设置了DNS服务器,否则您需要在所有3台服务器上创建主机文件条目,以便它们可以通过名称正确地相互解析。将以下行添加到/ etc / hosts文件的末尾:
10.0.0.4 node1 10.0.0.5 node2 10.0.0.6目击者 10.0.0.99 mysql-vip
禁用SELinux
编辑/ etc / sysconfig / linux并设置“SELINUX = disabled”:
#vi / etc / sysconfig / selinux #此文件控制系统上SELinux的状态。 #SELINUX =可以采用以下三个值中的一个: #enforcing - 强制执行SELinux安全策略。 #permissive - SELinux打印警告而不是强制执行。 #disabled - 未加载SELinux策略。 SELINUX =禁用 #SELINUXTYPE =可以采用以下两个值之一: #targeted - 目标进程受到保护, #mls - 多级安全保护。 SELINUXTYPE =针对性
配置iptables,以便集群虚拟IP可以正常工作
重要信息:为了使群集虚拟IP能够连接并且还要监视IP资源,需要设置一些iptables规则。 注意:10.0.0.99是我们将在群集中使用的虚拟IP,3306是我的MySQL使用的默认端口。在node1(10.0.0.4)上,运行以下命令:
#iptables --flush #iptables -t nat -A PREROUTING -p tcp --dport 3306 -j DNAT - 到目的地10.0.0.99:303 #iptables -t nat -A POSTROUTING -p icmp -s 10.0.0.99 -j SNAT --to-source 10.0.0.4 #service iptables save #chkconfig iptables on
在Node2(10.0.0.5)上,运行以下命令:
#iptables --flush #iptables -t nat -A PREROUTING -p tcp --dport 3306 -j DNAT - 到目的地10.0.0.99:303 #iptables -t nat -A POSTROUTING -p icmp -s 10.0.0.99 -j SNAT --to-source 10.0.0.5 #service iptables save #chkconfig iptables on
安装和配置VNC(及相关软件包)
要访问我们的Linux服务器的GUI,以便稍后配置我们的集群,请在您的集群节点上安装VNC服务器。 在我的设置中,我只在“node1”上执行此操作
#yum install tigervnc-server xterm #vncpasswd #vi / etc / sysconfig / vncservers VNCSERVERS = “2:根” VNCSERVERARGS [2] =“ - 几何1024x768” #service vncserver start #chkconfig vncserver on
通过在笔记本电脑/台式机上打开VNC客户端并连接到群集节点的公共IP来测试连接性
重新启动群集节点
重新启动群集节点,以便禁用SELinux,并检测先前添加的第二个磁盘。只需要重新启动“node1”和“node2”。
分区和格式化“数据”磁盘
在本指南的第6步(“将数据磁盘添加到群集节点”中),我们只是… …为每个群集节点添加了一个额外的磁盘,以存储我们将要保护的应用程序数据。 在这种情况下,它恰好是MySQL数据库。在Azure IaaS中,Linux虚拟机对磁盘使用以下安排:
- / dev / sda – 操作系统磁盘
- / dev / sdb – 临时磁盘
- / dev / sdc – 第一个数据磁盘
- / dev / sdd – 第二个数据磁盘
- …
- / dev / sdj – 第8个数据磁盘
我们在本指南的第6步中添加的磁盘应显示为/ dev / sdc。 您可以运行“fdisk -l”命令进行验证。 您将看到/ dev / sda(OS)和/ dev / sdb(临时)已经有磁盘分区并正在使用。
#fdisk -l 磁盘/ dev / sdb:306.0 GB,306016419840字节 255个头,63个扇区/轨道,37204个气缸 单位= 16065 * 512 = 8225280字节的柱面 扇区大小(逻辑/物理):512字节/ 512字节 I / O大小(最小/最佳):512字节/ 512字节 磁盘标识符:0xd3920649 设备启动开始结束块ID系统 / dev / sdb1 * 1 37205 298842112 83 Linux 磁盘/ dev / sdc:10.7 GB,10737418240字节 255个头,63个扇区/轨道,1305个气缸 单位= 16065 * 512 = 8225280字节的柱面 扇区大小(逻辑/物理):512字节/ 512字节 I / O大小(最小/最佳):512字节/ 512字节 磁盘标识符:0x00000000 磁盘/ dev / sda:32.2 GB,32212254720字节 255个头,63个扇区/轨道,3916个气缸 单位= 16065 * 512 = 8225280字节的柱面 扇区大小(逻辑/物理):512字节/ 512字节 I / O大小(最小/最佳):512字节/ 512字节 磁盘标识符:0x000c23d3 设备启动开始结束块ID系统 / dev / sda1 * 1 3789 30432256 83 Linux / dev / sda2 3789 3917 1024000 82 Linux swap / Solaris
在这里,我将创建一个分区(/ dev / sdc1),对其进行格式化,并将其挂载到MySQL的默认位置,即/ var / lib / mysql。 在“node1”和“node2”上执行以下步骤:
#fdisk / dev / sdc 命令(m求助):n 命令行动 扩展 p主分区(1-4) p 分区号(1-4):1 第一个柱面(1-1305,默认值1):<enter> 使用默认值1 最后一个气缸,气缸或尺寸{K,M,G}(1-1305,默认1305):<enter> 使用默认值1305 命令(m求助):w 分区表已被更改! 调用ioctl()重新读取分区表。 同步磁盘。 [root @ node1~]# #mkfs.ext4 / dev / sdc1 #mkdir / var / lib / mysql
在node1上,挂载文件系统:
#mount / dev / sdc1 / var / lib / mysql
安装并配置MySQL
接下来,安装安装MySQL包,初始化示例数据库,并为MySQL设置“root”密码。
在“node1”上:
#yum -y install mysql mysql-server #/ usr / bin / mysql_install_db --datadir =“/ var / lib / mysql /” - user = mysql #mysqld_safe --user = root --socket = / var / lib / mysql / mysql.sock --port = 3306 --datadir = / var / lib / mysql --log& # ##注意:下一个命令允许来自任何主机的远程连接。 生产不是一个好主意! #echo“update user set Host ='%'where host ='node1';刷新权限| mysql mysql # ##将MySQL的root密码设置为'SIOS' #echo“update user set Password = PASSWORD('SIOS')其中User ='root'; flush特权” | mysql mysql
创建MySQL配置文件。我们将它放在数据磁盘上(稍后将被复制 – /var/lib/mysql/my.cnf)。 例:
#vi /var/lib/mysql/my.cnf 的[mysqld] DATADIR =的/ var / lib中/ MySQL的 插座=的/ var / lib中/ MySQL的/的mysql.sock PID文件=的/ var / lib中/ MySQL的/ mysqld.pid 用户=根 端口= 3306 #建议禁用符号链接以防止出现各种安全风险 符号链接= 0 [mysqld_safe的] 对数误差=的/ var /数/ mysqld.log PID文件= / var / run中/ mysqld的/ mysqld.pid [客户] 用户=根 密码= SIOS
删除位于/ etc中的原始MySQL配置文件(如果存在):
#rm /etc/my.cnf
在“node2”上:
在“node2”上,您只需要安装MySQL软件包。 其他步骤不是必需的:
[root @ node2~] #yum -y install mysql mysql-server
安装和配置群集
此时,我们已准备好安装和配置我们的集群。 SIOS Protection Suite for Linux(又名SPS-Linux)将在本指南中用作群集技术。 它在单个集成解决方案中提供高可用性故障转移群集功能(LifeKeeper)以及实时,块级数据复制(DataKeeper)。 SPS-Linux使您能够部署“SANLess”群集,即“无共享”群集,这意味着群集节点没有任何共享存储,就像Azure VM一样。
安装适用于Linux的SIOS Protection Suite
在所有3个VM(node1,node2,见证)上执行以下步骤:下载SPS-Linux安装映像文件(sps.img),并获取试用许可证或购买永久许可证。 有关更多信息,请联系SIOS。您将环回安装它并以root身份运行“setup”脚本(或首先“sudo su – ”以获取根shell)例如:
#mkdir / tmp / install #mount -o loop sps.img / tmp / install #cd / tmp / install # 。/建立
在安装脚本期间,系统会提示您回答一些问题。 您将在几乎每个屏幕上按Enter键以接受默认值。 请注意以下例外情况:
- 在标题为“High Availability NFS”的屏幕上,您可以选择“n”,因为我们不会创建高可用性NFS服务器
- 在安装脚本结束时,您可以选择立即或稍后安装试用许可证密钥。我们稍后会安装许可证密钥,因此您可以安全地选择“n”
- 在“设置”的最后一个屏幕中,从屏幕上显示的列表中选择要安装的ARK(应用程序恢复工具包,即“群集代理”)。
- 仅在“node1”和“node2”上需要ARK。 你不需要在“见证”上安装
- 使用向上/向下箭头导航列表,然后按空格键选择以下内容:
- lkDR – 适用于Linux的DataKeeper
- lkSQL – LifeKeeper MySQL RDBMS恢复工具包
- 这将导致在“node1”和“node2”上安装以下附加RPM:
- SteelEye公司 – LKDR-9.0.2-6513.noarch.rpm
- SteelEye公司 – lkSQL-9.0.2-6513.noarch.rpm
安装Witness / Quorum包
LifeKeeper(steeleye-lkQWK)的Quorum / Witness服务器支持包与LifeKeeper核心的现有故障转移过程相结合,可以在总体网络故障常见的情况下以更大的可信度进行系统故障转移。这实际上意味着可以在大大降低“裂脑”情况的风险的同时进行故障转移。在所有3个节点(node1,node2,见证)上安装Witness / Quorum rpm:
#cd / tmp / install / quorum #rpm -Uvh steeleye-lkQWK-9.0.2-6513.noarch.rpm
在所有3个节点(node1,node2,见证)上,编辑/ etc / default / LifeKeeper,设置NOBCASTPING = 1仅打开见证服务器(“见证”),编辑/ etc / default / LifeKeeper,设置WITNESS_MODE = off / none
安装许可证密钥
在所有3个节点上,使用“lkkeyins”命令安装从SIOS获取的许可证文件:
#/ opt / LifeKeeper / bin / lkkeyins <path_to_file> / <filename> .lic
启动LifeKeeper
在所有3个节点上,使用“lkstart”命令启动集群软件:
#/ opt / LifeKeeper / bin / lkstart
设置LifeKeeper GUI的用户权限
在所有3个节点上,编辑/ etc / group并将“tony”用户(或在VM创建期间指定的任何用户名)添加到“lkadmin”组以授予对LifeKeeper GUI的访问权限。 默认情况下,只有“root”是该组的成员,并且我们没有root密码:
#vi / etc / group lkadmin:X:1001:根,贝
打开LifeKeeper GUI
与node1的公共IP地址建立VNC连接。 根据上面的VNC和入站安全规则配置,您将使用之前指定的VNC密码连接到<Public_IP>:2。 登录后,打开终端窗口并使用以下命令运行LifeKeeper GUI:
#/ opt / LifeKeeper / bin / lkGUIapp&
系统将提示您连接到第一个群集节点(“node1”)。 输入在VM创建期间指定的linux用户标识和密码:接下来,通过单击以下屏幕截图中突出显示的“连接到服务器”按钮连接到“node2”和“witness”:您现在应该看到GUI中的所有3个服务器,一个绿色的复选标记图标,表明他们在线和健康:
创建沟通路径
右键单击“node1”并选择Create Comm Path选择BOTH“node2”和“witness”,然后按照向导进行操作。 这将创建以下之间的通信路径:
- node1和node2
- node1&witness
仍然需要在node2和witness之间创建comm路径。 右键单击“node2”并选择Create Comm Path。 按照向导选择“见证”作为远程服务器:此时已创建以下通信路径:
- node1 < – > node2
- node1 < – >见证
- node2 < – >见证
服务器前面的图标已从绿色“复选标记”更改为黄色“危险标记”。 这是因为我们在节点之间只有一条通信路径。如果VM具有多个NIC(可以在此处找到有关创建具有多个NIC的Azure VM的信息,但本文不会介绍),则可以在每个服务器之间创建冗余通信路径。 要删除警告图标,请转到“查看”菜单,然后取消选择“Comm Path Redundancy Warning”:结果:
验证通信路径
使用“lcdstatus”命令查看群集资源的状态。 运行以下命令以验证是否已在每个节点上正确创建了与所涉及的其他两个服务器的通信路径:#/ opt / LifeKeeper / bin / lcdstatus -q -d node1 MACHINE NETWORK ADDRESSES / DEVICE STATE PRIO node2 TCP 10.0.0.4/ 10.0.0.5 ALIVE 1见证TCP 10.0.0.4/10.0.0.6 ALIVE 1#/ opt / LifeKeeper / bin / lcdstatus -q -d node2 MACHINE NETWORK ADDRESSES / DEVICE STATE PRIO node1 TCP 10.0.0.5/10.0.0.4 ALIVE 1见证TCP 10.0.0.5/10.0.0.6 ALIVE 1#/ opt / LifeKeeper / bin / lcdstatus -q -d witness MACHINE NETWORK ADDRESSES / DEVICE STATE PRIO node1 TCP 10.0.0.6/10.0.0.4 ALIVE 1 node2 TCP 10.0.0.6/10.0.0.5活着1
创建数据复制群集资源(即 镜子)
接下来,创建数据复制资源以将/ var / lib / mysql分区从node1(source)复制到node2(target)。 单击“绿色加号”图标以创建新资源:按照向导进行以下选择:
请选择恢复工具包:数据复制 转换类型:智能 服务器:node1 层次结构类型:复制退出文件系统 现有的挂载点:/ var / lib / mysql 数据复制资源标记:datarep-mysql 文件系统资源选项卡:/ var / lib / mysql 位图文件:(默认值) 启用异步复制:否
创建资源后,将出现“扩展”(即定义备份服务器)向导。 使用以下选项:
目标服务器:node2 转换类型:智能 模板优先级:1 目标优先级:10 目标磁盘:/ dev / sdc1 数据复制资源标记:datarep-mysql 位图文件:(默认值) 复制路径:10.0.0.4/10.0.0.5 挂载点:/ var / lib / mysql 根标签:/ var / lib / mysql
创建虚拟IP
接下来,创建虚拟IP群集资源。 单击“绿色加号”图标以创建新资源:按照向导使用以下选项创建IP资源:
选择Recovery Kit:IP 转换类型:智能 IP资源:10.0.0.99 网络掩码:255.255.255.0 网络接口:eth0 IP资源标签:ip-10.0.0.99
使用以下选项扩展IP资源:
转换类型:智能 模板优先级:1 目标优先级:10 IP资源:10.0.0.99 网络掩码:255.255.255.0 网络接口:eth0 IP资源标签:ip-10.0.0.99
配置IP资源的Ping列表
默认情况下,SPS-Linux通过执行广播ping来监视IP资源的运行状况。 在许多虚拟和云环境中,广播ping不起作用。 在上一步中,我们在/ etc / default / LifeKeeper中设置“NOBCASTPING = 1”以关闭广播ping检查。相反,我们将定义一个ping列表。
转换类型:智能 服务器:node1
目标服务器:node2 转换类型:智能 模板优先级:1 目标优先级:10
测试群集连接