服务器群集:故障转移和故障回复

故障转移

如果服务器群集上的个别应用程序执行失败(但是节点没有失败),则群集服务通常会尝试重新启动同一节点上的应用程序。如果失败了,群集服务会移动此应用程序的资源并且在服务器群集的其他节点上重新启动它们。这个过程称为“故障转移”。群集管理器能够使用图形控制台设置不同的恢复策略,例如应用程序之间的依存关系、是否在同一服务器上重新启动应用程序、是否自动重新平衡(或称故障回复)当产生故障的服务器回到联机状态时的负载。

群集服务会在遇到以下情况时尝试故障转移组:

故障转移包括以下步骤:

  1. 群集服务使组中的所有资源按组的依存关系层次所确定的顺序脱机:首先是依存资源,紧随其后的是它们所依存的资源。例如,如果某个应用程序依赖于一个物理磁盘资源,则群集服务首先使此应用程序脱机,允许应用程序在磁盘脱机前将更改写入磁盘。
  2. 群集服务通过资源监视器调用管理此资源的资源 DLL,使该资源脱机。如果这个资源没有在指定的时间期限内关闭,则群集服务将强行中断此资源。有关为一个资源设置超时值的详细信息,请参阅为资源指定重新启动策略

  3. 当所有资源脱机时,群集服务会尝试将该组传递到组的首选主服务器节点列表上的下一个节点。有关群集服务如何确定故障转移和故障回复到哪一个节点的详细信息,请参阅确定组的故障转移和移动策略
  4. 如果群集服务成功地将组移动到其他节点,那么它会试图将所有组的资源联机。当所有该组的资源在新节点上联机,故障转移结束。

群集服务继续尝试将该组故障转移,直到它成功或者直到在给定的时间段内达到一个即定的尝试数量。一个组的故障转移策略指定在一段时间间隔内可以发生故障转移尝试的最大数量。如果群集服务超过这个限制,它判定在群集内的任何点都不能联机该组并停止尝试将该组故障转移。有关如何设置组的故障转移策略的详细信息,请参阅设置组的故障转移策略

控制故障转移策略的方法

有关群集服务的详细信息,请参阅群集服务

故障回复

当节点因为某种原因变为非活动时,群集服务将故障转移该节点控制的组。当该节点再一次变成活动时,群集服务将组故障回复到原先控制这些组的节点。

群集服务在将一个组故障回复时使用和它进行故障转移时一样的过程。就是说,群集服务将该组中的所有资源脱机,移动组然后再将组中的所有资源联机。

可以将故障回复设置在指定的时间周期内发生。设置故障回复时间是非常重要的,因为在使用峰值期间,您可能不希望发生故障回复。

有关如何配置组的故障回复策略的详细信息,请参阅设置组的故障回复策略

上页:服务器群集:资源故障 下页:服务器群集:群集服务

相关链接

服务器群集:故障转移和故障回复服务器群集:群集服务
服务器群集:资源动态链接库 (DLL)服务器群集:资源依存关系
服务器群集:虚拟服务器服务器群集:群集自动服务器
服务器群集组件服务器群集:资源类型
服务器群集:了解服务器群集服务器群集:仲裁资源
服务器群集:组服务器群集:群集对象
服务器群集:资源监视器服务器群集:网络和磁盘驱动程序
服务器群集:从命令行管理服务器群集服务器群集:其他新建服务器群集向导信息
服务器群集:资源服务器群集:最佳操作
服务器群集中的网络配置服务器群集:配置和运行服务器群集的最佳操作
版权所有 © 中山市飞娥软件工作室 证书:粤ICP备09170368号