Servidor con problemas de conexión

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
Necesito tips o ideas para investigar este caso. Acá va el relato:

Tengo dos servidores destinados a una base de datos Oracle que trabajan en la modalidad activo-pasivo :uy . El activo lo llamaremos freddy y al pasivo elton. También hay un servidor de respaldo que llamaremos elvis y un servidor de oracle test llamado ozzy. Todos ellos son servidores físicos-baremetal-fierropelao.

freddy y elvis están con Oracle Linux 8 y su configuración de red con bonding. O sea, dos tarjetas de red físicas del servidor forman una ip.

La cosa es que ayer UNA aplicación que se conecta a la base de datos estaba dando jugo y luego otra aplicación comenzó con lo mismo. Mi monitoreo de base de datos no me decía nada, todo bien, y el log de sistema operativo del servidor de base de datos freddy estaba limpio, pero el problema estaba presente. Es más, probé un dnf repolist y me fallaba la conexión a los repositorios.

Así de reojo me llega la alerta que el servidor de respaldo no puede respaldar la base de datos, no llega, entonces comienzo a hacer ping:

El ping desde mi computador hacia freddy si responde.
El ping desde elvis hacia freddy no responde.
El ping desde ozzy hacia freddy si responde.
El ping desde elton hacia freddy si responde.

Y además hay un par de aplicaciones que viven en vmware dando problemas con la base de datos que corre en freddy.

Como ven, no responde al ping DESDE ALGUNOS SERVIDORES, pero desde otros servidores SI RESPONDE.

Activé el pasivo, moví el servicio de base de datos desde freddy hacia elton (elton activo, freddy pasivo) y el problema de las dos aplicaciones quedó resuelto.

Reinicié el servidor freddy y el problema de ping continuaba. Ya a esa altura tenía un ping persistente desde el servidor de respaldo elvis hacia freddy.

Estaba con el equipo de infra conversando y de repente se me ocurre una idea bien random: deshabilitar una de las interfaces de red del bonding Y LA HUEA SE RESUELVE, AHORA RESPONDE AL PING.

¿era la interface de red la que daba problemas? Me quedó dando vueltas eso así que volví a reiniciar el servidor freddy y cuando volvió las dos interfaces de red del bonding estaban operativas y el ping SEGUÍA RESPONDIENDO.


En teoría el problema de conexión ya no está y ya podría volver a dejar a freddy como servidor activo (productivo) pero no me compro que la huea se haya resuelvo por magia.
Abrí un caso con el soporte de oracle linux (es barata la subscripción, más que redhat) pidiendo revisión antes de volver a dejar a freddy como activo.
¿Hay que actualizar el sistema operativo con un dnf update?
¿Tengo que actualizar firmware?
¿El problema es externo, en el/los switch?

Bueno, la misma huea que le pregunté al soporete de oracle se las pregunto a ustedes por si se les ocurre algún lugar en donde mirar.
 

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
La gente del soporte de sistema operativo Oracle vio los logs y me mandó a hablar con el soporte del servidor.
 
Upvote 0

ranamaldita

mueranse
Se incorporó
24 Junio 2003
Mensajes
4.522
Es una wea fisica de alguna nic, el bonding asumo que no es entre dos nic de la misma lom, sino que son tarjetas separadas. Me paso alguna vez tb con unas nic de 10, al final habia cagado una. En la prueba de blancura la wea andaba mal sola.
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
La gente del servidor no encontró nada raro y me dijo que por las dudas le meta un firmware y drivers que salieron hace poco.
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
Es una wea fisica de alguna nic, el bonding asumo que no es entre dos nic de la misma lom, sino que son tarjetas separadas. Me paso alguna vez tb con unas nic de 10, al final habia cagado una. En la prueba de blancura la wea andaba mal sola.

Cachai que pensé esa huea, entonces después de un reinicio dejé el bonding funcionando con la nic que en teoría estaba mala e igual respondió al ping :'(
 
Upvote 0

pipe9

Fanático
Se incorporó
10 Enero 2020
Mensajes
1.105
"El ping desde elvis hacia freddy no responde."

Cuando probaste lo anterior, probaste de freddy a elvis ?

Usas algún firewall en las maquinas que pueda crear una blacklist por cantidad de conexiones ?

Los bonding los tienes fail o agregados ? Viste los estados de los bonding ?
 
Upvote 0

cliobrando

Capo
Se incorporó
6 Mayo 2021
Mensajes
202
Dependiendo del tipo de bonding hay que meterle mano al switch, y a veces pasan ese tipo de cosas, especialmente cuando hay LACP involucrado.
usar teamdctl para ver el estado y si está todo ok.
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
"El ping desde elvis hacia freddy no responde."

Cuando probaste lo anterior, probaste de freddy a elvis ?

Usas algún firewall en las maquinas que pueda crear una blacklist por cantidad de conexiones ?

Los bonding los tienes fail o agregados ? Viste los estados de los bonding ?

El ping pal otro lado, desde freddy a elvis tampoco respondía.

Bueno, la huea es que como dejé el servidor freddy en modo pasivo aproveché de meterle los últimos firmware y updates de sistema operativo, pero en estricto rigor el único cambio que tuve fue el de bajar la interface de red y volver a subirla.


Mañana voy a dejar a freddy en modo activo de nuevo a ver como se comporta.
 
Upvote 0

Miguelwill

I am online
Miembro del Equipo
MOD
Se incorporó
23 Febrero 2004
Mensajes
12.403
Cachai que pensé esa huea, entonces después de un reinicio dejé el bonding funcionando con la nic que en teoría estaba mala e igual respondió al ping :'(
en que modalidad esta el Bonding ?
activo-backup?
balance-tlb ?
balance-alb ?

ambas nics conectadas a un mismo switch o conectados en switchs diferentes ? (algun stacks en los switchs? )

dependiendo de la combinacion de switch-bonding-balanceo pueden aparecer problemas

los balanceos se recomienda que funcionen bajo el mismo switch, y dependiendo del tipo, puede requerir ajustes en el switch para el LAGG de puertos

si hay dudas del nic activo y pasivo, puedes ver el estado con:
para bond0:
cat /proc/net/bond/bond0
 
Upvote 0
Subir