Linux Linux, actualizacion de RedHat 6.4 a 6.8

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
Hace unos días el messages alertó errores en la lectura de memoria en uno de los servidores de base de datos de producción.

Código:
Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:48 oracleprod1 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0": 108 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c1 (ch=1), addr = 0x4cf61bf000 => socket=1, Channel=0(mask=1), rank=1


La gente de redHat me dice que es error de hardware y la gente de dell me dice que anda todo la raja porque el chequeo de hardware dice que anda todo impeque. Le mandé un reinicio al server pero a los dos días volvió a saltar el mismo error.

Finalmente Dell me dice "actualiza firmware" y bueno, actualicé firmware y el chequeo de hardware sigue impeque- Y ahora viene lo peor: aplicar yum update para pasar de RedHat 6.4 a RedHat 6.8.

Que el pulento se apiade de mi alma para que los servicios de Oracle levanten después de este update.
 

K3rnelpanic

non serviam
Miembro del Equipo
MOD
Se incorporó
1 Octubre 2007
Mensajes
6.065
Actualizar un server de producción NO es recomendable, a menos que tenga una falla que tengas la certeza podrás subsanar actualizando todo el sistema, o aplicando un update específico de algo que necesitas (como parchar el openssl por las vulnerabilidades recientes)
Me autocito don Zuljin :zippy
 
Upvote 0

Harima

Pegao al tarro
Se incorporó
15 Mayo 2008
Mensajes
3.958
El problema es que ya van varios días en que salta el error de memoria en el /var/log/messages




Discrepo. Si uno maneja una política de actualización constante (considerando actualización como aplicación de parches de corrección de errores y de seguridad) se evita caídas de servicio producto de fallos de seguridad o bugs en el sistema.

En Linux le tienen panico a los updates de sistemas, el lema es instalar y dejar funcionando y no volverlo a tocar en toda la vida.
En Windows, 50/50, los mas viejitos tienen la misma politica que en Linux, los más jovenes tienen versionitis.
El otro día le dijeron a un cliente con server windows que instalara el parche de la hora, como no habian actualizado nunca desde que instalaron el 2008 R2, les pego un update y otras hierbas, estuvieron como 1 día entero dando caldo para aplicar el parche de la hora.
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
Aplica el lema "Si no está roto, no lo arregles"

El problema es que todo sistema tiene fallas, tiene bugs, y es una cuestión de probabilidades de que pises un bug y tengas una disrupción de servicio cuando menos lo esperes. Así, las actualizaciones (updates, no upgrades) vienen a corregir proactivamente errores potenciales que tiene tu sistema y tienes la posibilidad de bajar el sistema cuando tú lo estimes conveniente (un sábado en la noche) y no que se te caiga el sistema cuando menos lo quieras (justo en vísperas de navidad para las casas comerciales, por ejemplo).

Y acá viene otra máxima... y esto ha pasado:
Se cae el sistema por un bug, ya sea del servidor, de sistema operativo o de la aplicación, y tienes una disrupción de servicio cuando estás en día hábil, sacando los sueldos, recibiendo compras online, arriesgándote a fallar un SLA. Te contactas con el soporte y te dice:
"Es un bug, resuelto en el parche ABC666 liberado hace seis meses. Instale ese parche y todo se solucionará".

Y ahí viene la pregunta del gerente:
"¿Y por qué no instalaste ese parche antes?"

Y no sirve eso de "es que si está bueno no lo toques", porque los que estamos en este oficio sabemos que TODO tiene bug sy potencialmente puede fallar en cualquier momento: sistemas operativos, celulares, aplicaciones, etc.
 
Última modificación:
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
"Porque no hay presupuesto para realizar las pruebas de funcionamiento antes de aplicar a producción"

Pero es un parche poh Cosme, no un upgrade a una versión superior. No requieres una prueba completa, basta con una prueba funcional aunque claro, si actualizan cada tres años si da susto, pero si llevan los updates cada tres meses no debería ser complejo. Además hago la diferencia entre "actualización de seguridad" y "upgrade a nueva versión", y en esta última si hay que hacer una prueba completa pero éste no es el caso.
 
Upvote 0

Soujiro

Fanático
Se incorporó
14 Enero 2008
Mensajes
1.428
Pero el diagnóstico de hardware de Dell dice que anda todo la raja
Viejo no le creas a ese "diagnostico", yo acá estamos teniendo dramas hace meses con par de servers. Según el reporte de dell en un servidor la ram del slot A2 fallo, compramos la ram, anduvo impeque un par de semanas.... vuelta a fallar. Rotamos la ram con la del slot A1 y hasta ahora no ha vuelto a fallar ninguna de esas rams..... pero fallo la del A6 que es el par de la A2. Asi que alli tamos en "conversaciones" con dell

Lo mas chistoso es que tenemos 2 servers iguales, asi que pude testear la ram "mala" original en el server hermano con memtest... y no arrojo ningún problema..... Salvo que cuando reconectamos las rams originales marco error en el slot A2 (WTF) Lamentablemente en nuestro caso huele demasiado a obsolescencia programada estas fallas "místicas" de la ram (los servers fueron comprados hace 6 años)

Asi que no actualices por las puras.
 
Upvote 0

K3rnelpanic

non serviam
Miembro del Equipo
MOD
Se incorporó
1 Octubre 2007
Mensajes
6.065
Además hago la diferencia entre "actualización de seguridad" y "upgrade a nueva versión", y en esta última si hay que hacer una prueba completa pero éste no es el caso.
Ah, ahí cambia la cosa pos. :zippy
Es que hay gente que gusta de aplicar
# yum update -y
como si fuera deporte. :zippyte
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
Ah, ahí cambia la cosa pos. :zippy
Es que hay gente que gusta de aplicar
# yum update -y
como si fuera deporte. :zippyte

Pero es que si actualizas cada... no se... tres meses, ese yum update es aplicar unas pocas actualizaciones de seguridad.
 
Upvote 0

Soujiro

Fanático
Se incorporó
14 Enero 2008
Mensajes
1.428
depende la actualización de seguridad tmb. Recuerdo que la del ssl nos trajo problemas con un cliente que no podía actualizar su plataforma dado que aun no sacaban parche para ella y hubo que esperar varios meses para poder actualizar.
 
Upvote 0

Miguelwill

I am online
Miembro del Equipo
MOD
Se incorporó
23 Febrero 2004
Mensajes
12.403
Pero es que si actualizas cada... no se... tres meses, ese yum update es aplicar unas pocas actualizaciones de seguridad.
Igual entre ambas versiones hay más que unos pocos meses de diferencia, y hay que ver que ese proceso no te reescribe la conf

Enviado desde mi HUAWEI KII-L23 mediante Tapatalk
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
tropa de maricones
Oye @yakko, en tu experiencia has visto sistemas que fallen por aplicar actualizaciones de seguridad? E insisto, no me refiero a pasar de Redhat 6.x a 7.x (que es un "upgrade" grande), sino simplemente pasar de Redhat 6.x a Redhat 6.x+1.

Enviado desde mi 7055A mediante Tapatalk
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
Igual entre ambas versiones hay más que unos pocos meses de diferencia, y hay que ver que ese proceso no te reescribe la conf

Enviado desde mi HUAWEI KII-L23 mediante Tapatalk
Pero puede ser que pasar de Redhat 6.4 a 6.8 te reescriba un archivo de conf?

Yo he actualizado Redhat Linux de 6.4 a 6.8 en maquinas virtuales con Oracle Cluster, volúmenes montados con multipath y todo eso y no me ha fallado nada. Si, da susto pasar un servidor físico de Producción pero no tendría por que fallar y tampoco hay experiencias de fallas, así que salvo el caso de OpenSSL descrito en un post anterior, no veo que a nadie le haya quedado la cagada.

Enviado desde mi 7055A mediante Tapatalk
 
Upvote 0
Subir