Hace unos fines de semana tuvimos un laboratorio para probar las contingencias.
A ver, para ponerlos en la situación, mediante redes, se echan toda la plataforma productiva y habilitan la contingencia, y el cambio tiene que tener x tiempo de respuesta. El tema es que todo iba como avión, sin problemas.
Ya terminando la vuelta atrás, se me ocurre decirle a mi jefe que podríamos aprovechar esa oporunidad única para reiniciar las máquinas, dado que les había instalado el update de ssl. Buena idea, me dice, y procedo con el reinicio. Son 28 red hats 5.2
Pasan los minutos y de las 28 vuelven 5, las demás todas alertadas según el sistema de monitoreo. Mi cara cuando pasó eso era
Tuve que entrar por kvm mediante la interfaz de administración de los bladecenter y veía todas las máquinas arriba (como chucha pasó esta weá, me dije
), así que mi instinto me llevó a revisar las rutas estáticas que tenían asignadas y dentro de todo el chorizo (que además estaba mal hecho) habían olvidado agregar la ruta hacia la red de monitoreo
Así que agregando a mano la wea rapidamente para poder irme para la casa
Como esos servers no se reinician nunca, alguien en algún momento del espacio-tiempo ha de haber modificado las rutas teniendo pico idea de lo que hacía, dejando la bomba de tiempo.
Así que zafamos relativamente rápido de la potencial cagada. Una máquina nomás, a la que supongo el mismo iluminado intervino, había puesto en la blacklist del modprobe.conf el driver que levanta las tarjetas de red para el sistema, dejando abajo el bonding y todas las NICs configuradas.
Algo piola, para darle más adrenalina al trabajo