Tengo un storage Oracle ZFS 7320 el cual de la nada apareció con un split brain, y con esto ya no existe un cluster como tal, me aparece que esta configurado algo como simpleton.
Si vemos desde el SP del segundo miembro del cluster, veremos un mensaje como el siguiente;
Sun ZFS Storage 7320 Configuration Copyright 2014 Oracle All rights reserved. NET-0 <=> NET-1 <=> NET-2 NET-3 784 error(s) have occurred during cluster rejoin. The most recent error was: 'operation timed out'. Cluster rejoin will be retried until successful. Joining cluster ... \ ESC-3: Halt ESC-4: Reboot ESC-5: Info For help, see http://www.oracle.com/goto/zfs7320/
Con lo cual, nunca se unirá al cluster gracias al estado de split brain y tendremos un ZFS 7320 con un solo controlador.
Antes de seguir, les recuerdo sacar un backup de la configuración del storage y guardarlo en su PC.
Como solucionar un Split Brain en un Oracle ZFS 7320
La gran ventaja de los servidores de Oracle es que todos traen unas interfaces ethernet de administración llamadas NET MGT, donde (y gracias al DHCP) pude conectarme para abrir un /SP/console.
La cuestión aquí es que hay que darle un factory reset al miembro del cluster que no puede unirse. Para luego via la interfaz de administración web o BUI unirlo como nuevo miembro al cluster del ZFS.
Via ssh se conectan a la IP de las interfaces NET MGT del servidor del ZFS, ingresan como root y teclean;
ft5zfsp02:> maintenance system factoryreset This will reset all configuration state on the appliance. Are you sure? (Y/N) You will need to reconfigure this machine from scratch! Are you sure? (Y/N)
Confirman la operación tecleando “y” dos veces y veran como toda la configuración se pierde.
El servidor Oracle ZFS se reiniciara y unos 5 minutos después se despliega esta pantalla en la consola del SP;
SunOS Release 5.11 Version ak/[email protected],1-1.33 64-bit Copyright (c) 1983, 2010, Oracle and/or its affiliates. All rights reserved. Discarding configured state ... done. Rolling back to installed state .......... done. System configuration in progress. Configuring version: ak/[email protected],1-1.33 Creating active datasets ...... done. Resetting SP password ... done. Starting configd ... done. Scanning manifests ... done. Loading smf(5) service descriptions: 153/153 Applying generic.xml ... done. Applying platform.xml ... done. Loading smf(5) service descriptions: 25/25 Applying profile install/akinstall.xml ... done. Applying service layer generic ... done. Applying service layer nas ... done. Applying service layer SUNW,maguro_plus ... done. Applying service profile generic ... done. Enabling auditing of Solaris commands ... done. Shutting down configd ... done. Configuring devices. Configuring network devices ... done. Sun ZFS Storage 7320 Version ak/SUNW,[email protected],1-1.33 Copyright 2014 Oracle All rights reserved. Use is subject to license terms. Checking hardware configuration ... done. Starting appliance configuration .................................. done. Press any key to begin configuring appliance: [*]
Ahora bien, desde el menú de cluster del BUI de administración agregan nuevamente el servidor que acabamos de realizarse el factory reset, tecleando el nombre y la contraseña del mismo.
Se me olvido agregar que al conectar deben de ejecutar la consola del sp
Oracle(R) Integrated Lights Out Manager
Version 3.0.16.10.d r74499
Copyright (c) 2012, Oracle and/or its affiliates. All rights reserved.
Warning: password is set to factory default.
-> start /SP/console