Memorias Sistema operativo alerta problemas de RAM, pero diagnóstico de BIOS no dice nada

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
Camaradas, acompáñenme a ver esta triste historia.

Tengo un servidor físico Dell con RedHat Linux 6.4 instalado. A nivel de actualizaciones de hardware está al día (firmware, bios, iDrac, etc) pero a nivel de Sistema Operativo sólo le hemos actualizado los tzdata. La máquina ha funcionado bien todo este tiempo.

La cosa es que el /var/log/messages tiró una alerta de memoria:

Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0de000 MISC 39c1000240108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0d8000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 6 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0da000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0db000 => socket=1, Channel=0(mask=1), rank=4



Generé un caso de soporte con RedHat y los lolos de RH me dicen que es un problema de hardware. Acto seguido, en una ventana de mantenimiento, ejecuto un proceso de revisión de hardware proporcionado por el fabricante (a nivel de Bios) e incluyo revisión de memoria RAM y la huea me dice que TODO ESTÁ LA RAJA, TODO ESTA BIEN.

Dado ese escenario no puedo pedirle al fabricante que me cambie la memoria porque SU diagnóstico dice que todo está impeque.

Yo quiero que los lolos de Dell me cambien la memoria, pero poniéndome en su situación entiendo que no me quieran cambiar niuna huea porque dicen que anta todo bien. ¿Les ha pasado algo así? ¿Algún consejo?
 

javiernico

cmos burner
Miembro del Equipo
MOD
Se incorporó
1 Junio 2006
Mensajes
4.264
desde mi ignorancia en servidores pregunto, ¿hay algún otro software que puedas testear las memorias ?, tipo memtest86, quizás eso te pueda ayudar a discernir quien miente
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.872
desde mi ignorancia en servidores pregunto, ¿hay algún otro software que puedas testear las memorias ?, tipo memtest86, quizás eso te pueda ayudar a discernir quien miente

memtest. El problema es que el fabricante confía en SU herramienta de diagnóstico.
 
Upvote 0

javiernico

cmos burner
Miembro del Equipo
MOD
Se incorporó
1 Junio 2006
Mensajes
4.264
memtest. El problema es que el fabricante confía en SU herramienta de diagnóstico.

te lo comentaba, para que tu tuvieras certeza de saber que es lo malo, y con eso ya sabes a quien dirigirte redhat o dell
 
Upvote 0

NIN

Opteron Fanboy
Se incorporó
5 Septiembre 2005
Mensajes
1.447
no necesitas bajar el equipo para eso.

ls -s /sys/devices/system/edac/mc/mc0

https://serverfault.com/questions/682909/how-to-find-faulty-memory-module-from-mce-message


Debes ver que modulo está generando los errores y su frecuencia para decidir el cambio

no existe la posibilidad que, si todas estas memorias son del mismo fabricante/lote, fallen en poco tiempo mas?? Sería conveniente que se haga el reclamo y, de ser aceptado, se reemplacen todos los módulos.
 
Upvote 0

kuk

Cs 1.6 since 2006
Se incorporó
24 Enero 2008
Mensajes
1.873
no existe la posibilidad que, si todas estas memorias son del mismo fabricante/lote, fallen en poco tiempo mas?? Sería conveniente que se haga el reclamo y, de ser aceptado, se reemplacen todos los módulos.

Yo imagino que el problema de eso, es que el equipo trae su propio test y si este no esta mostrando fallas, es muy probable que no quieran responder...
 
Upvote 0
Subir