- Se incorporó
- 15 Enero 2004
- Mensajes
- 11.868
Camaradas, acompáñenme a ver esta triste historia.
Tengo un servidor físico Dell con RedHat Linux 6.4 instalado. A nivel de actualizaciones de hardware está al día (firmware, bios, iDrac, etc) pero a nivel de Sistema Operativo sólo le hemos actualizado los tzdata. La máquina ha funcionado bien todo este tiempo.
La cosa es que el /var/log/messages tiró una alerta de memoria:
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0de000 MISC 39c1000240108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0d8000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 6 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0da000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0db000 => socket=1, Channel=0(mask=1), rank=4
Generé un caso de soporte con RedHat y los lolos de RH me dicen que es un problema de hardware. Acto seguido, en una ventana de mantenimiento, ejecuto un proceso de revisión de hardware proporcionado por el fabricante (a nivel de Bios) e incluyo revisión de memoria RAM y la huea me dice que TODO ESTÁ LA RAJA, TODO ESTA BIEN.
Dado ese escenario no puedo pedirle al fabricante que me cambie la memoria porque SU diagnóstico dice que todo está impeque.
Yo quiero que los lolos de Dell me cambien la memoria, pero poniéndome en su situación entiendo que no me quieran cambiar niuna huea porque dicen que anta todo bien. ¿Les ha pasado algo así? ¿Algún consejo?
Tengo un servidor físico Dell con RedHat Linux 6.4 instalado. A nivel de actualizaciones de hardware está al día (firmware, bios, iDrac, etc) pero a nivel de Sistema Operativo sólo le hemos actualizado los tzdata. La máquina ha funcionado bien todo este tiempo.
La cosa es que el /var/log/messages tiró una alerta de memoria:
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0de000 MISC 39c1000240108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:08 maquina kernel: sbridge: HANDLING MCE MEMORY ERROR
Feb 28 03:32:08 maquina kernel: CPU 1: Machine Check Exception: 0 Bank 8: cc000188000800c0
Feb 28 03:32:08 maquina kernel: TSC 0 ADDR 5f9b0df000 MISC 39c0400080108c PROCESSOR 0:206d7 TIME 1493361128 SOCKET 1 APIC 20
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0d8000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 6 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0da000 => socket=1, Channel=0(mask=1), rank=4
Feb 28 03:32:09 maquina kernel:
Feb 28 03:32:09 maquina kernel: EDAC MC1: CE row 1, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#1": 7 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c0 (ch=0), addr = 0x5f9b0db000 => socket=1, Channel=0(mask=1), rank=4
Generé un caso de soporte con RedHat y los lolos de RH me dicen que es un problema de hardware. Acto seguido, en una ventana de mantenimiento, ejecuto un proceso de revisión de hardware proporcionado por el fabricante (a nivel de Bios) e incluyo revisión de memoria RAM y la huea me dice que TODO ESTÁ LA RAJA, TODO ESTA BIEN.
Dado ese escenario no puedo pedirle al fabricante que me cambie la memoria porque SU diagnóstico dice que todo está impeque.
Yo quiero que los lolos de Dell me cambien la memoria, pero poniéndome en su situación entiendo que no me quieran cambiar niuna huea porque dicen que anta todo bien. ¿Les ha pasado algo así? ¿Algún consejo?