Memorias Sistema operativo alerta problemas de RAM, pero diagnóstico de BIOS no dice nada

Zuljin · 2 Mayo 2017

Camaradas, acompáñenme a ver esta triste historia.

Tengo un servidor físico Dell con RedHat Linux 6.4 instalado. A nivel de actualizaciones de hardware está al día (firmware, bios, iDrac, etc) pero a nivel de Sistema Operativo sólo le hemos actualizado los tzdata. La máquina ha funcionado bien todo este tiempo.

La cosa es que el /var/log/messages tiró una alerta de memoria:

Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0de000 MISC 39c1000240108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0d8000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 6 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0da000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0db000 => socket=1, Channel=0(mask=1), rank=4

Generé un caso de soporte con RedHat y los lolos de RH me dicen que es un problema de hardware. Acto seguido, en una ventana de mantenimiento, ejecuto un proceso de revisión de hardware proporcionado por el fabricante (a nivel de Bios) e incluyo revisión de memoria RAM y la huea me dice que TODO ESTÁ LA RAJA, TODO ESTA BIEN.

Dado ese escenario no puedo pedirle al fabricante que me cambie la memoria porque SU diagnóstico dice que todo está impeque.

Yo quiero que los lolos de Dell me cambien la memoria, pero poniéndome en su situación entiendo que no me quieran cambiar niuna huea porque dicen que anta todo bien. ¿Les ha pasado algo así? ¿Algún consejo?

javiernico · 2 Mayo 2017

desde mi ignorancia en servidores pregunto, ¿hay algún otro software que puedas testear las memorias ?, tipo memtest86, quizás eso te pueda ayudar a discernir quien miente

Zuljin · 2 Mayo 2017

javiernico dijo:
desde mi ignorancia en servidores pregunto, ¿hay algún otro software que puedas testear las memorias ?, tipo memtest86, quizás eso te pueda ayudar a discernir quien miente

memtest. El problema es que el fabricante confía en SU herramienta de diagnóstico.

javiernico · 2 Mayo 2017

Zuljin dijo:
memtest. El problema es que el fabricante confía en SU herramienta de diagnóstico.

te lo comentaba, para que tu tuvieras certeza de saber que es lo malo, y con eso ya sabes a quien dirigirte redhat o dell

Zuljin · 2 Mayo 2017

javiernico dijo:
te lo comentaba, para que tu tuvieras certeza de saber que es lo malo, y con eso ya sabes a quien dirigirte redhat o dell

mmm... tienes razón. El fin de semana voy a tirar un memtest

Cosme · 2 Mayo 2017

no necesitas bajar el equipo para eso.

ls -s /sys/devices/system/edac/mc/mc0

https://serverfault.com/questions/682909/how-to-find-faulty-memory-module-from-mce-message

Debes ver que modulo está generando los errores y su frecuencia para decidir el cambio

K3rnelpanic · 2 Mayo 2017

Por qué el log dice Feb 28? :zippyte

Zuljin · 2 Mayo 2017

VittokoX dijo:
Por qué el log dice Feb 28?

Cambié la fecha para ponerle color... Pero fue hace poco.

Enviado desde mi 7055A mediante Tapatalk

NIN · 2 Mayo 2017

Cosme dijo:
no necesitas bajar el equipo para eso.

ls -s /sys/devices/system/edac/mc/mc0

https://serverfault.com/questions/682909/how-to-find-faulty-memory-module-from-mce-message

Debes ver que modulo está generando los errores y su frecuencia para decidir el cambio

no existe la posibilidad que, si todas estas memorias son del mismo fabricante/lote, fallen en poco tiempo mas?? Sería conveniente que se haga el reclamo y, de ser aceptado, se reemplacen todos los módulos.

Carlos E. Flores · 3 Mayo 2017

¿Será lo mismo?

Just a quick update. After some drawn out dialogue with the vendor and Intel, it turns out that a memory chip needs replacing and that there's a known bug in the ME firmware (downgrade recommended).

http://www.linuxforums.org/forum/ha...-hardware-error-being-logged-how-serious.html

kuk · 4 Mayo 2017

NIN dijo:
no existe la posibilidad que, si todas estas memorias son del mismo fabricante/lote, fallen en poco tiempo mas?? Sería conveniente que se haga el reclamo y, de ser aceptado, se reemplacen todos los módulos.

Yo imagino que el problema de eso, es que el equipo trae su propio test y si este no esta mostrando fallas, es muy probable que no quieran responder...

Zuljin · 4 Mayo 2017

Darknesshell dijo:
¿Será lo mismo?

http://www.linuxforums.org/forum/ha...-hardware-error-being-logged-how-serious.html

Buenísimo el link.

Memorias Sistema operativo alerta problemas de RAM, pero diagnóstico de BIOS no dice nada

Zuljin

Fundador

javiernico

cmos burner

Zuljin

Fundador

javiernico

cmos burner

Zuljin

Fundador

Cosme

Gold Member

K3rnelpanic

non serviam

Zuljin

Fundador

NIN

Opteron Fanboy

Carlos E. Flores

Zombie

kuk

Cs 1.6 since 2006

Zuljin

Fundador