故障转移群集(Failover Cluster)是 Windows Server 下的群集技术的全称。它指的是一组协同工作的独立服务器,通过物理链路和软件进行连接,以相应的技术手段来实现更好的服务可用性:当群集内某一台物理服务器出现故障时,另一台服务器开始接管故障服务器的服务(此转移的过程被称为故障转移过程)。群集角色会主动监测群集内的主机工作是否正常,通过故障转移,最终用户所能感知到的停机时间将会非常短暂。尽管群集多数是由两台以上的独立服务器组成,但在逻辑上,它们被认为是一个紧密的整体。
故障转移群集在 Windows Server 下是一项覆盖面很广的技术,其不仅可以提升 Hyper-V 的服务可用性,还可以将以下几个重要角色添加到故障转移群集中:
DFS 命名空间服务器:命名空间是一个组织中文件共享的虚拟视图。当用户查看命名空间时,共享看似驻留于单个硬盘中。用户无需了解承载数据的服务器名称或文件共享,即可导航命名空间。
DHCP 服务器:DHCP 服务器自动提供客户端计算机和其他基于 TCP/IP 并具有有效 IP 地址的网络设备。
虚拟机:虚拟机是在物理计算机上运行的虚拟化的计算机系统。多个虚拟机可运行在同一台计算机上。关于虚拟机的故障转移群集也是本书的重点之一。
Hyper-V 副本代理:故障转移群集可以使用 Hyper-V 副本代理加入具有 Hyper-V 副本的虚拟机复制。每个故障转移群集上只能配置一个 Hyper-V 副本代理。通过Hyper-V 副本代理,使得 Hyper-V 副本可以在故障转移群集中使用。
文件服务器:文件服务器的群集可以为用户提供基于文件共享的高可用实例。
通用服务、脚本、应用程序:可以将本不是用于在故障转移群集中运行的服务、脚本、应用程序配置高可用性。
Exchange 服务器:在早期的 Exchange 中,如 Exchange2007,即采用的故障转移群集技术,最新的 Exchange2010 和 2013 所采用的 DAG 技术则采用了故障转移群集组件提供的有限的一部分群集功能。DAG 使用群集数据库、群集心跳(Cluster heartbeat)及文件共享见证(File Share Witness,FSW)功能
SQL Server,SQL Server 是一套数据库系统,通过故障转移群集,可为 SQL Server 带来高可用性,使用户免遭服务中断的影响。
和终端用户相比,企业用户对于业务的连续性和可靠性更为在意。相对而言,企业一般不会将追逐单一硬件的性能排在第一位。如何衡量业务是否持续可用,一般使用"x 个 9"这种方式来定义。如我们常说的"3 个 9",即表示年可用性为 99.9%,也即意味着一年只能有 8.76 个小时的系统停机时间。对于单台物理服务器而言,这意味着该设备一年内不能出现硬件损坏的情况,否则更换配件和重新上架的时间过长,很容易导致可用性等级超出这个标准。像"5 个 9",甚至"6 个 9"这种高可用性是如何实现的呢?可想而知,通过单台物理服务器来实现这种目标将是非常苛刻,为了满足企业对业务持续可用的追求,降低年故障停机时间,系统、网络、存储各大厂商都引入了"群集"的概念。"群集"的作用是通过多台硬件同时运行来实现的,当故障发生时,通过快速且自动化的切换故障服务器,从而实现业务的持续运行。和传统的硬件故障或网络故障发生后,需要人为参与排障不同的是,群集技术是不需要人为参与的,可以做到全自动运行。当故障发生时第一时间转移故障节点,从而极大限度的提升业务持续可用的能力。Windows Server 2012 R2 作为新一代的 Cloud OS,其 Hyper-V 角色自然也拥有"群集" 的能力。Windows 下的群集技术被称之为"故障转移群集",Hyper-V 角色的故障转移群集目的很明确:当群集内某一台 Hyper-V 主机出现故障无法提供服务时,可由群集内的其他主机快速接管任务,继续为用户提供持续可用的服务。在介绍微软私有云之前,必须对微软的故障转移群集有深入的了解,它属于微软私有云实现高可用性的核心技术。仅供参考!