服务器群集:组和资源故障问题

您有什么问题?

资源失败,但是没有回到联机状态。

原因:  某资源可能依存于其他已经失败的资源。

解决方案:  在资源的“属性”对话框中,请确认“不要重新启动”复选框已清除。如果该资源需要其他资源才能工作并且第二个资源失败,请确认已经正确配置从属关系。

不能使资源联机。

原因:  资源没有正确安装。

解决方案:  请确认与该资源相关的应用程序或服务已经正确安装。

原因:  资源没有正确配置。

解决方案:  请确认该资源属性配置正确。

原因:  资源和服务器群集不兼容。

解决方案:  不是所有应用程序都可配置成在群集中可进行故障转移。详细信息,请参阅选择运行在服务器群集上的应用程序

原因:  资源正在生成特定错误。

解决方案:  查看系统“事件日志”(在“资源”列下面查找 ClusSvc 项)以确定资源是否正在生成特定错误消息。

在“群集管理器”中不能使默认的物理磁盘资源联机。

大多数群集配置问题源于对共享存储总线或服务器重新启动的错误配置。

原因:  可能在安装群集服务之后没有重新启动服务器。

解决方案:  请确认在安装群集服务之后重新启动了所有服务器。

当服务器重新启动时,群集存储中的每个磁盘的签名都会被读取并且用签名信息对注册表进行更新。

原因:  可能存在硬件错误或传输问题。

解决方案:  请确认不存在硬件错误或传输问题。

使用“事件查看器”(“开始”菜单中的“程序”和“管理工具(公用)”上),在事件日志中查看有关磁盘 I/O 的错误信息或者通信传输问题的标识。

原因:  可能等待注册表更新的时间不够长。

解决方案:  请确认等待注册表更新的时间足够长。

“群集管理器”在启动时对注册表进行了备份。然而,在第二台服务器启动后,可能要花费一分钟的时间将磁盘签名写到注册表中。等待一分钟,然后单击“刷新”。

原因:  有一台或多台共享存储总线上的适配器没有正确配置。

解决方案:  请确认适配器配置正确。

原因:  共享存储总线超过了最大电缆长度。

解决方案:  请确认共享存储总线没有超过最大电缆长度。

原因:  该磁盘不被支持。

解决方案:  请确认磁盘硬件或固件版本没有过时。

原因:  总线适配器不被支持、适配器硬件或固件版本已过时。

解决方案:  请确认总线适配器已被支持而且适配器硬件或固件修订级没有过时。

原因:  如果您将存储总线适配器移到其他的 I/O 插槽,添加或删除总线适配器,或者安装新版本的总线适配器驱动程序,群集软件可能无法访问共享存储总线上的磁盘。

解决方案:  为适应这些变化,请确认共享存储总线适配器已经被重新正确配置。

原因:   操作系统没有正确配置以访问共享存储总线。

解决方案:   验证操作系统可以检测到共享存储总线适配器。

在“磁盘管理器”中,没有看到在该节点联机的有关组的磁盘。

位置

  • 计算机管理
  • 存储
  • 磁盘管理

原因:  可能没有看到正确的磁盘。

解决方案:  请确认看到了正确的磁盘。

如果没有给磁盘写上卷标或没有指派固定驱动器号,就不能识别哪些磁盘是该群集的一部分,而哪些则不是。用有意义的名称命名磁盘卷标并且给每个分区都指派固定驱动器号。

原因:  可能存在硬件问题。

解决方案:  请确认没有存在任何硬件问题。

运行“事件查看器”,并检查磁盘 I/O 的错误信息或硬件问题标识。

无法手动移动一个组或在应该故障转移到另一个节点时没有转移。

原因:  故障转移节点可能没有被指定为要进行故障转移的组中的全部资源的可能所有者。

解决方案:  请确认为进行故障转移的组中的全部资源,指定故障转移节点作为可能的所有者。

检查组资源的“属性”对话框中的所有权的配置。如果节点没有设置为该组所有资源的可能所有者,则这个节点就不能拥有该组,因此也不会发生故障转移。要解决这个问题,请将该节点设置为组的所有资源的可能所有者。

原因:  组中的某个资源可能连续失败。

解决方案:  确定该组中的某个资源是否连续失败。

如果可能,该节点将备份资源而不会将故障转移到该组。如果资源连续失败,但是没有故障转移,请确认选中了资源属性的“重新启动和影响组”。同样,请检查“重新启动阈值”和“重新启动周期”设置,这两项也在资源“属性”对话框中。

组进行了故障转移但是没有进行故障回复。

原因:  如果组运行的节点本身出故障并重新加入到群集中,则组只进行故障回复。如果是组(而不是节点)出故障,那么该组将故障转移到另一个节点,但不会故障回复到初始节点。

原因:  组和资源的故障回复策略没有正确配置。

解决方案:  请确认“防止故障回复”复选框在组的“属性”对话框中是清除的。如果“允许故障回复”复选框已被选中,请确认在组进行故障回复时要等待足够长的时间。检查组中受到影响的所有资源的设置。由于组作为整体进行故障转移,因此阻碍故障回复的一个资源就会影响到全组。

原因:  想要组故障回复到的节点没有配置成该组的首选所有者。

解决方案:  请确认想要组进行故障回复到的节点已经配置成该组的首选所有者。如果不是,群集服务就会把该组留在故障转移到的节点上。

全组失败且没有重新启动。

原因:  节点脱机。

解决方案:  请确认该节点没有脱机。

如果组运行时所在的节点脱机,请检查另一个节点已成为该组及其全部组资源的可能所有者。

原因:  组重复失败。

解决方案:  该组可能超过故障转移阈值或故障转移周期。试着分别使资源联机(按照依存资源的正确序列)来确定哪个资源出现了问题。或者创建临时资源组(用于检测),然后将资源逐项移入到该组中。

所有节点都正常发挥功能,但是资源不断进行故障回复。

原因:  电源可能是间歇供电或出现故障。

解决方案:  请确认电源不是间歇供电,或没有失败。使用不间断电源 (UPS) 可以解决该问题,如果可能也可以换用其他公司的电源。

群集服务没有成功地对资源进行故障转移。

原因:  群集存储设备没有正确配置。

解决方案:  验证群集存储设备配置正确并且所有电缆都正确连接。

可以将一个资源组从一个节点故障转移到另一个节点,但是它可以自动进行故障回复。

原因:  一个或多个资源不能联机到新节点上。

解决方案:  使用一个删除进程确定哪一个资源不能联机。详细信息,请参阅Microsoft 知识库(http://search.support.microsoft.com/kb/)中的文章 Q303431,“Explanation of Why Server Clusters Do Not Verify that Resources will Work Properly on All Nodes”(服务器群集不验证资源是否会在所有节点上正常工作的原因)。

当更改为与“网络名称”资源使用的输入语言不同的系统区域设置时,“网络名称”资源失败。

原因:  系统区域设置在群集的所有节点上和连接到群集的计算机上的所有节点中必须一致。

解决方案:  更改系统区域设置。详细信息,请参阅通过群集管理器连接到群集

“消息队列”资源不能正确处理会导致资源失败的消息活动。

原因:  处理消息活动时,服务器上的每一个“消息队列”的实例映射 4 MB 的系统查看空间。这导致了在一个群集节点上只能有三个活动的工作“消息队列”实例的默认限制。在一个有三个“消息队列”资源的服务器群集中,一个节点可以同时运行四个“消息队列”服务(运行在本地节点上的服务加上三个与“消息队列”资源相关的服务。)在该方案中,消息活动受到限制导致资源失败。

解决方案:  在每一个有三个或更多“消息队列”资源的服务器群集节点上增加系统查看空间的存储器池。(建议,应该增加系统查看空间的存储器池,即使对于运行少于三个“消息队列”资源的节点。)

  • 打开注册表编辑器。
  • 打开注册项HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager\Memory Management
  • 创建一个称为SystemViewSize的新的 DWORD 值。
  • 使用以下公式计算并输入该 DWORD 值:(16 +(“消息队列”资源的数量 x 4))。
    例如,有三个“消息队列”资源的群集的计算结果是 28。
  • 重新启动每一个节点。

第三方资源在混合版本的群集中或在升级群集时无法联机。

原因:  如果资源使用非 Microsoft 提供的加密提供程序导出(加密)和导入(解密)资源数据(群集和群集应用程序加密检查点),在 Windows 2000 和Windows Server 2003家族操作系统中,默认的加密密钥长度可能不同。结果是该资源可能无法联机,并且群集和事件日志可能包含有关该资源的加密检查点同步化错误。

解决方案:  使用 cluster.exe "CSP" 专用属性,为加密和解密该失败资源类型的第三方加密提供程序设置密钥长度和有效密钥长度。

  • 打开命令提示符。
  • 键入clusterClusterName"CSP"=key_length,effective_key_length:MULTISTR
    ClusterName是群集的名称,CSP是加密提供程序的名称,而key_lengtheffective_key_length是 RC2 加密算法的密钥和有效密钥长度,单位为位。有关使用 cluster.exe 的详细信息,请参阅Cluster。
  • 根据资源的不同,使该资源联机或重新创建该资源以便添加新的加密检查点。

注意

  • 请复查加密提供程序的文档,以便获得以下 RC2 加密算法参数的有效值:key_lengtheffective_key_length。另请复查加密提供程序的文档,以便了解添加加密检查点的正确过程。

有关如何获得产品支持的详细信息,请参阅技术支持选项。

上页:服务器群集:客户端到群集连接问题 下页:服务器群集:一般管理问题

相关链接

服务器群集:组和资源故障问题服务器群集:一般管理问题
服务器群集的一般驱动器配置提示服务器群集:群集安装问题
服务器群集:管理服务器群集服务器群集:从命令行管理群集服务
服务器群集:Debugresmon 命令服务器群集:Fixquorum 命令
服务器群集:Resetquorumlog 命令服务器群集:Norepevtlogging 命令
服务器群集:Forcequorum 命令服务器群集:清单:安装 IIS 服务器实例资源
服务器群集:清单:安装消息队列资源服务器群集:清单:安装网络名称资源
服务器群集:清单:安装物理磁盘资源服务器群集:清单:安装后台打印资源
服务器群集:清单:安装 WINS 服务资源服务器群集:清单:创建服务器群集
服务器群集:清单:创建服务器群集文件服务器服务器群集:清单:创建服务器群集打印服务器
版权所有 © 中山市飞娥软件工作室 证书:粤ICP备09170368号