HD apresentando mensagens de erro

Iniciado por rwarstat, 22 de Dezembro de 2016, 23:46

tópico anterior - próximo tópico

rwarstat

Em um servidor Ubuntu 14.04 LTS começaram  aparecer as seguintes mensagens:

Citar[  114.007471] ata1: lost interrupt (Status 0x50)
[  114.007500] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
[  114.009044] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
[  114.009830] ata1.01: failed command: READ DMA
[  114.010610] ata1.01: cmd c8/00:00:00:10:2d/00:00:00:00:00/f0 tag 0 dma 131072 in
[  114.010610]          res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x54 (ATA bus error)
[  114.012184] ata1.01: status: { DRDY }
[  114.012970] ata1.00: hard resetting link
[  114.735959] ata1.01: hard resetting link
[  115.616667] ata1.00: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
[  115.616686] ata1.01: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[  115.648819] ata1.00: configured for UDMA/100
[  115.665134] ata1.01: configured for UDMA/133
[  115.666428] ata1.01: device reported invalid CHS sector 0
[  115.666439] ata1: EH complete
[  117.139799] init: plymouth-upstart-bridge main process ended, respawning
[  117.146490] init: plymouth-upstart-bridge main process (1430) terminated with status 1
[  117.146499] init: plymouth-upstart-bridge main process ended, respawning
[  165.053445] ata1: lost interrupt (Status 0x50)
[  165.053472] ata1.01: limiting SATA link speed to 1.5 Gbps
[  165.053479] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
[  165.053551] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
[  165.053579] ata1.01: failed command: READ DMA
[  165.053598] ata1.01: cmd c8/00:58:28:6d:5b/00:00:00:00:00/f0 tag 0 dma 45056 in
[  165.053598]          res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x54 (ATA bus error)
[  165.053647] ata1.01: status: { DRDY }
[  165.053668] ata1.00: hard resetting link
[  165.777985] ata1.01: hard resetting link
[  166.658656] ata1.00: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
[  166.658674] ata1.01: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  166.690854] ata1.00: configured for UDMA/100
[  166.707241] ata1.01: configured for UDMA/133
[  166.708168] ata1.01: device reported invalid CHS sector 0
[  166.708178] ata1: EH complete
[  290.202624] ata1: lost interrupt (Status 0x50)
[  290.202656] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
[  290.202708] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
[  290.202736] ata1.01: failed command: WRITE DMA EXT
[  290.202757] ata1.01: cmd 35/00:58:e0:22:44/00:00:1c:00:00/f0 tag 0 dma 45056 out
[  290.202757]          res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x54 (ATA bus error)
[  290.202806] ata1.01: status: { DRDY }
[  290.202827] ata1.00: hard resetting link
[  290.931124] ata1.01: hard resetting link
[  291.815888] ata1.00: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
[  291.815907] ata1.01: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  291.848025] ata1.00: configured for UDMA/100
[  291.864430] ata1.01: configured for UDMA/133
[  291.865710] ata1.01: device reported invalid CHS sector 0
[  291.865721] ata1: EH complete
[  352.200884] ata1: lost interrupt (Status 0x50)
[  352.200906] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
[  352.200941] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
[  352.200969] ata1.01: failed command: WRITE DMA EXT
[  352.200990] ata1.01: cmd 35/00:08:40:db:0a/00:00:33:00:00/f0 tag 0 dma 4096 out
[  352.200990]          res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x54 (ATA bus error)
[  352.201038] ata1.01: status: { DRDY }
[  352.201059] ata1.00: hard resetting link
[  352.925352] ata1.01: hard resetting link
[  353.806035] ata1.00: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
[  353.806053] ata1.01: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  353.838181] ata1.00: configured for UDMA/100
[  353.854536] ata1.01: configured for UDMA/133
[  353.855543] ata1.01: device reported invalid CHS sector 0
[  353.855550] ata1: EH complete
[  817.507896] ata1: lost interrupt (Status 0x50)
[  817.507925] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
[  817.507997] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
[  817.508032] ata1.01: failed command: WRITE DMA EXT
[  817.508059] ata1.01: cmd 35/00:08:c0:f8:0c/00:00:33:00:00/f0 tag 0 dma 4096 out
[  817.508059]          res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x54 (ATA bus error)
[  817.508106] ata1.01: status: { DRDY }
[  817.508126] ata1.00: hard resetting link
[  818.232504] ata1.01: hard resetting link
[  819.113171] ata1.00: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
[  819.113190] ata1.01: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  819.145254] ata1.00: configured for UDMA/100
[  819.161587] ata1.01: configured for UDMA/133
[  819.162519] ata1.01: device reported invalid CHS sector 0
[  819.162527] ata1: EH complete
[  879.570254] ata1: lost interrupt (Status 0x50)
[  879.570283] ata1.01: limiting speed to UDMA/100:PIO4
[  879.570290] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
[  879.570360] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
[  879.570393] ata1.01: failed command: WRITE DMA EXT
[  879.570413] ata1.01: cmd 35/00:40:78:2d:44/00:00:1c:00:00/f0 tag 0 dma 32768 out
[  879.570413]          res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x54 (ATA bus error)
[  879.570472] ata1.01: status: { DRDY }
[  879.570492] ata1.00: hard resetting link
[  880.294731] ata1.01: hard resetting link
[  881.183403] ata1.00: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
[  881.183417] ata1.01: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  881.215539] ata1.00: configured for UDMA/100
[  881.231855] ata1.01: configured for UDMA/100
[  881.233377] ata1.01: device reported invalid CHS sector 0
[  881.233383] ata1: EH complete
[  946.692300] ata1.01: exception Emask 0x50 SAct 0x0 SErr 0x40d0802 action 0x0 frozen
[  946.692332] ata1.01: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B DevExch }
[  946.692358] ata1.01: failed command: WRITE DMA EXT
[  946.692378] ata1.01: cmd 35/00:08:c0:f8:0c/00:00:33:00:00/f0 tag 0 dma 4096 out
[  946.692378]          res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x54 (ATA bus error)

Reparei nesses erros após a máquina ter travado e só conseguir reiniciar depois que desliguei ele da tomada.
Essas mensagens indicam que o HD está pifando?

platao

#1
na minha opiniao sim, ele vai ficar dando esse erro e carrega o sistema, ate chegar uma hora que nao vai mais, e bom ter um backup o quanto antes...

veja um exemplo de erro de HD ja no estagio mais avançado;

[   29.783379] ata1.00: status: { DRDY ERR }
[   29.783381] ata1.00: error: { UNC }
[   29.796451] ata1.00: configured for UDMA/100
[   29.796460] sd 0:0:0:0: [sda] Unhandled sense code
[   29.796463] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[   29.796466] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
[   29.796471] Descriptor sense data with sense descriptors (in hex):
[   29.796473]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[   29.796494]         00 00 5e 88
[   29.796498] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
[   29.796504] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 00 5e 88 00 00 20 00
[   29.796513] end_request: I/O error, dev sda, sector 24200
[   29.796516] Buffer I/O error on device sda1, logical block 22152
[   29.796519] Buffer I/O error on device sda1, logical block 22153
[   29.796521] Buffer I/O error on device sda1, logical block 22154
[   29.796524] Buffer I/O error on device sda1, logical block 22155
[   29.796526] Buffer I/O error on device sda1, logical block 22156
[   29.796528] Buffer I/O error on device sda1, logical block 22157
[   29.796530] Buffer I/O error on device sda1, logical block 22158
[   29.796532] Buffer I/O error on device sda1, logical block 22159
[   29.796547] Buffer I/O error on device sda1, logical block 22160
[   29.796549] Buffer I/O error on device sda1, logical block 22161
[   29.796569] ata1: EH complete
[   33.683896] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[   33.683899] ata1.00: BMDMA stat 0x25
[   33.683902] ata1.00: failed command: READ DMA
[   33.683907] ata1.00: cmd c8/00:01:88:5e:00/00:00:00:00:00/e0 tag 0 dma 512 in
[   33.683908]          res 51/40:01:88:5e:00/00:00:00:00:00/e0 Emask 0x9 (media error)
\\\\\\\\Apostilas Dicas e Guias do Ubuntu\\\\\\\\\> http://ubuntuforum-br.org/index.php/topic,79368.msg440997.html#msg440997

zekkerj

Se não for o HD, é a interface. O que não é vantagem, trocar um disco é mais fácil que trocar a placa mãe (já que a maioria das interfaces hoje em dia é integrada na placa mãe).
Essa máquina é servidora, mesmo, ou é um desktop adaptado?

EDIT: Antes que esqueça, vc pode acompanhar a saúde do disco com o pacote "smartmontools".
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

rwarstat

Eu suspeitava que o hd estava indo para o espaço.
Interessante que já é o segundo disco que dá problema nessa máquina (acho que na época eu postei um tópico aqui sobre isso, pois era o disco de sistema).

Citação de: zekkerj online 23 de Dezembro de 2016, 12:02
Se não for o HD, é a interface. O que não é vantagem, trocar um disco é mais fácil que trocar a placa mãe (já que a maioria das interfaces hoje em dia é integrada na placa mãe).
Essa máquina é servidora, mesmo, ou é um desktop adaptado?

EDIT: Antes que esqueça, vc pode acompanhar a saúde do disco com o pacote "smartmontools".

É um desktop adaptado, montado especificamente para essa função. Ele não é uma máquina comprada pronta em loja e que foi colocada como servidor.
Se for um problema de interface, se trocar a porta da placa-mãe, o problema pode ser resolvido? Pergunto, pois essa máquina tem 3 hd´s e somente um deles está apresentando esse erro.

zekkerj

Ainda acho mais fácil que seja o HD.
Como é a energia no local onde essa máquina está instalada?
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

rwarstat

Está ligado em um no-break da APC. Não tem maiores problemas de queda de energia.

selvaking

A fonte de alimentação da máquina tem pedigree? Qual a potência dela?
Dê-me um computador com o Tux que movo o mundo!

Linux User #323049

rwarstat

Selva,
Não me lembro agora de cabeça e estou sem acesso à máquina, mas é fonte de marca conhecida, tipo Zalman, Thermalthake ou outra desse nível.
Se não me engano, a fonte é de 450W, suficiente para um I3 com tudo onboard, 3 hd´s e um gravador de dvd.

zekkerj

Suficiente pra um desktop... que funciona algumas horas e é desligado.
Servidor é outra coisa... fica ligado 24x7. Não é questão de ter potência pra alimentar, e sim de alimentar com uma potência constante e confiável.
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

rwarstat

Com base nas respostas que tive aqui, vejo que o quê me resta à fazer é:


  • Substituir o hd imediatamente;
  • Trocar a fonte e se possível substituir essa máquina por um servidor realmente.

Seria isso o quê me resta a fazer?

zekkerj

Isso, e confirmar que você tem uma rotina de backup eficiente.
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

rwarstat

Citação de: zekkerj online 26 de Dezembro de 2016, 00:15
Isso, e confirmar que você tem uma rotina de backup eficiente.

Esse é um tema para outro tópico. rs