- Se incorporó
- 15 Enero 2004
- Mensajes
- 11.872
Necesito tips o ideas para investigar este caso. Acá va el relato:
Tengo dos servidores destinados a una base de datos Oracle que trabajan en la modalidad activo-pasivo . El activo lo llamaremos freddy y al pasivo elton. También hay un servidor de respaldo que llamaremos elvis y un servidor de oracle test llamado ozzy. Todos ellos son servidores físicos-baremetal-fierropelao.
freddy y elvis están con Oracle Linux 8 y su configuración de red con bonding. O sea, dos tarjetas de red físicas del servidor forman una ip.
La cosa es que ayer UNA aplicación que se conecta a la base de datos estaba dando jugo y luego otra aplicación comenzó con lo mismo. Mi monitoreo de base de datos no me decía nada, todo bien, y el log de sistema operativo del servidor de base de datos freddy estaba limpio, pero el problema estaba presente. Es más, probé un dnf repolist y me fallaba la conexión a los repositorios.
Así de reojo me llega la alerta que el servidor de respaldo no puede respaldar la base de datos, no llega, entonces comienzo a hacer ping:
El ping desde mi computador hacia freddy si responde.
El ping desde elvis hacia freddy no responde.
El ping desde ozzy hacia freddy si responde.
El ping desde elton hacia freddy si responde.
Y además hay un par de aplicaciones que viven en vmware dando problemas con la base de datos que corre en freddy.
Como ven, no responde al ping DESDE ALGUNOS SERVIDORES, pero desde otros servidores SI RESPONDE.
Activé el pasivo, moví el servicio de base de datos desde freddy hacia elton (elton activo, freddy pasivo) y el problema de las dos aplicaciones quedó resuelto.
Reinicié el servidor freddy y el problema de ping continuaba. Ya a esa altura tenía un ping persistente desde el servidor de respaldo elvis hacia freddy.
Estaba con el equipo de infra conversando y de repente se me ocurre una idea bien random: deshabilitar una de las interfaces de red del bonding Y LA HUEA SE RESUELVE, AHORA RESPONDE AL PING.
¿era la interface de red la que daba problemas? Me quedó dando vueltas eso así que volví a reiniciar el servidor freddy y cuando volvió las dos interfaces de red del bonding estaban operativas y el ping SEGUÍA RESPONDIENDO.
En teoría el problema de conexión ya no está y ya podría volver a dejar a freddy como servidor activo (productivo) pero no me compro que la huea se haya resuelvo por magia.
Abrí un caso con el soporte de oracle linux (es barata la subscripción, más que redhat) pidiendo revisión antes de volver a dejar a freddy como activo.
¿Hay que actualizar el sistema operativo con un dnf update?
¿Tengo que actualizar firmware?
¿El problema es externo, en el/los switch?
Bueno, la misma huea que le pregunté al soporete de oracle se las pregunto a ustedes por si se les ocurre algún lugar en donde mirar.
Tengo dos servidores destinados a una base de datos Oracle que trabajan en la modalidad activo-pasivo . El activo lo llamaremos freddy y al pasivo elton. También hay un servidor de respaldo que llamaremos elvis y un servidor de oracle test llamado ozzy. Todos ellos son servidores físicos-baremetal-fierropelao.
freddy y elvis están con Oracle Linux 8 y su configuración de red con bonding. O sea, dos tarjetas de red físicas del servidor forman una ip.
La cosa es que ayer UNA aplicación que se conecta a la base de datos estaba dando jugo y luego otra aplicación comenzó con lo mismo. Mi monitoreo de base de datos no me decía nada, todo bien, y el log de sistema operativo del servidor de base de datos freddy estaba limpio, pero el problema estaba presente. Es más, probé un dnf repolist y me fallaba la conexión a los repositorios.
Así de reojo me llega la alerta que el servidor de respaldo no puede respaldar la base de datos, no llega, entonces comienzo a hacer ping:
El ping desde mi computador hacia freddy si responde.
El ping desde elvis hacia freddy no responde.
El ping desde ozzy hacia freddy si responde.
El ping desde elton hacia freddy si responde.
Y además hay un par de aplicaciones que viven en vmware dando problemas con la base de datos que corre en freddy.
Como ven, no responde al ping DESDE ALGUNOS SERVIDORES, pero desde otros servidores SI RESPONDE.
Activé el pasivo, moví el servicio de base de datos desde freddy hacia elton (elton activo, freddy pasivo) y el problema de las dos aplicaciones quedó resuelto.
Reinicié el servidor freddy y el problema de ping continuaba. Ya a esa altura tenía un ping persistente desde el servidor de respaldo elvis hacia freddy.
Estaba con el equipo de infra conversando y de repente se me ocurre una idea bien random: deshabilitar una de las interfaces de red del bonding Y LA HUEA SE RESUELVE, AHORA RESPONDE AL PING.
¿era la interface de red la que daba problemas? Me quedó dando vueltas eso así que volví a reiniciar el servidor freddy y cuando volvió las dos interfaces de red del bonding estaban operativas y el ping SEGUÍA RESPONDIENDO.
En teoría el problema de conexión ya no está y ya podría volver a dejar a freddy como servidor activo (productivo) pero no me compro que la huea se haya resuelvo por magia.
Abrí un caso con el soporte de oracle linux (es barata la subscripción, más que redhat) pidiendo revisión antes de volver a dejar a freddy como activo.
¿Hay que actualizar el sistema operativo con un dnf update?
¿Tengo que actualizar firmware?
¿El problema es externo, en el/los switch?
Bueno, la misma huea que le pregunté al soporete de oracle se las pregunto a ustedes por si se les ocurre algún lugar en donde mirar.