viernes, 24 de enero de 2014

PowerHA6.1 to 7.1 Upgrade. Tips, errors & clmigcheck problems [solved]

Hola,
he estado cacharreando en un entorno de pruebas con el PowerHa7.1 y dónde he encontrado "más trampas" ha sido en su actualización porque la administración, salvo que el menú de smit cambia y que tenemos el repository disk y la IP multicast, el resto es muy similar a la hora de administrar.


Problemas que he encontrado en el propio script clmigcheck:

1) ERROR:  PowerHA System Mirror requires a shared disk connected to all nodes in the cluster. None could be found.

Problema: el script clmigcheck no detecta los discos compartidos por ambos nodos, aunque sí los hay.

Solución: Hay que hacer varios cambios en /usr/sbin/clmigcheck o bien crear el fichero /var/clmigcheck/clmigcheck.txt a mano.
El comando cllspvids ha debido cambiar y ahora no debería recibir opciones, aunque en el script clmigcheck si la tiene.

Ejemplo: he comentado las líneas que están mal y he incluido otras con el comando sin opciones.
# Get space separated list of shared disks connected to
# every node in the cluster
#log "prompt_disks: Output from cl_lspvids -n ${node_list}:\n"
log "prompt_disks: Output from cl_lspvids :\n"
#${CSPOCDIR}/cllspvids -n ${node_list} >>${LOGFILE} 2>&1
${CSPOCDIR}/cllspvids >>${LOGFILE} 2>&1               
log "\n"

2) ERROR:  Multicast communication with node srvnimprasce01 failed.

Problema: El script clmigcheck hace un test de mping utilizando una IP Multicast fija definida en el script.

Solución: modificar el script clmigcheck poniendo la IP Multicast que vaya a utilizar el cluster.
NOTA: aunque el tráfico multicast esté habilitado entre dos máquinas, es posible que la MAC Multicast por la que hablan no esté enrutada en los switches.
Para sacar la MAC Multicast que van a utilizar para pasársela al grupo de networking, los tres primeros campos son fijos 01:00:5e: y los tres siguientes corresponden al valor hexadecimal de cada uno de los tres últimos octetos de la IP Multicast del cluster.
Ej: IP Multicast=228.23.14.101 --> MAC Multicast=01:00:5e:17:0e:65


Solución a algunos de los errores reportados por clmigcheck.

1) ERROR: Communications Path for node srvnimprasce02 must be set to hostname

Problema: en /etc/hosts hay una entrada con una IP errónea para uno de los nodos.
Solución: editar /etc/hosts para corregirlo.


2) ERROR:  You must first ensure the ODM configuration has no errors, then you can enter additional configuration information.
Note that you must enter the configuration information before you can install PowerHA System Mirror 7.1 on a system that contains an ODM configuration. You must rerun the tool and first check the ODM configuration, then enter the configuration data.

Problema: se ha ejecutado clmigcheck e inmediatamente se ha seleccionado la opción 3.
Solución: siempre que se necesite ejecutar la opción 3 de clmigcheck, hay que ejecutar primero la opción 1.

3) CONFIG-ERROR: The configuration contains unsupported options:  Heartbeat via IP Alias Address.
The PowerHA network name is .  This will have to be removed from the configuration before migration to PowerHA System Mirror

Problema: hay heartbeat configurados a través de IP alias.
Solución: eliminar la configuración “IP Address Offset” en cada red. Requiere parada de los servicios de cluster.
NOTA: hacerlo en ambos nodos o hacerlo en uno y sincronizar.
# smitty hacmp > Extended Configuration > Extended Topology Configuration > Configure HACMP Networks > Change/Show a Network in the HACMP Cluster
           Change/Show an IP-Based Network in the HACMP Cluster
                                                    [Entry Fields]
* Network Name                                       Red_Adm
  New Network Name                                   []
* Network Type                                       [ether]    +
* Netmask(IPv4)/Prefix Length(IPv6)                  [255.255.255.0]
* Enable IP Address Takeover via IP Aliases          [Yes]       +
  IP Address Offset for Heartbeating over IP Aliases [10.1.1.1]    ?         --> Vaciar []
* Network attribute                                   public     +

Sincronizar
Smitty hacmp > Extended > HACMP Verification and Synchronization


Errores durante la administración de un cluster PowerHA7.1

1) clmgr errors with repository disk operations

Problema: ejemplo
# clmgr replace repository 0004d86a94efa267
ERROR: "0004d86a94ef9202" cannot be found on "machineX"
Available Physical Volumes:
[…]
Solución: modificar la Object Class HACMPsircol poniendo el pvid correcto (lspv)

- Hacer backup del objeto
# odmget HACMPsircol
HACMPsircol:
        name = "SCFE_pro_sircol"
        id = 0
        uuid = "0"
        ip_address = "228.23.14.101"
        repository = "0002329ab3e778dd"
        backup_repository = "0004d86a94efa267"
# odmget HACMPsircol > HACMPsircol.tmp
- Modificar el backup con el PVID bueno
# vi HACMPsircol.tmp
- Eliminar el objeto antiguo
# odmdelete HACMPsircol
- Insertar el objeto nuevo
# odmadd HACMPsircol.tmp


2) Error: RSCT cluster services (cthags) are not active on this node

Problema: Los servicios de cluster no levantan reportando el siguiente error:
rc.cluster: Error: RSCT cluster services (cthags) are not active on this node.
rc.cluster: Try bringing up CAA and RSCT with the following command:
startsrc -g caa.
cl_rsh had exit code = 1, see cspoc.log and/or clcomd.log for more information

En PowerHa 7.1, cthags sustituye a grpsvcs como gestor del Group Service por lo que, en este caso, el problema es que cthags no se ha iniciado correctamente. Para ello es necesario rebotar la máquina con los servicios de cluster activos.

NOTA: es posible que sea necesario levantar los servicios de cluster antes de rebotar o no se pueda rebotar ahora mismo. Será grpsvcs quién esté gestionando el Group Services en ese momento.
Arrancamos el cthags aunque no vaya a hacer nada, pero el chequeo del cluster mira a ver si el subsistema está "active"
# startstc –s cthags
# smitty clstart

No hay comentarios:

Publicar un comentario