[RESOLVIDO] Problema HD Sata

Iniciado por promurilo, 28 de Julho de 2010, 11:03

tópico anterior - próximo tópico

promurilo

Olá a todos.

Tenho um problema em meu HD Sata de 160 GB, em um micro Desktop. A marca é Maxtor.

O problema é que em algumas situações o HD emite alguns "estalos". Nessas ocasiões o PC trava ou não inicia.

O interessante é que não percebo o problema tanto no Windows XP. É mais no Linux.

O problema geralmete aparece quando eu uso o Windows por algumas horas e depois reinicio a máquina para usar o ubuntu 10.04. Quando eu saio da tela do grub, o HD começa a "instalar" e o but não acontece. Depois de algumas tentativas, ou depois de deixar o micro desligado por alguns minutos, a inicialização volta ao normal. Mas em algumas poucas vezes, depois de iniciar, o sistema congela, obrigando a reiniciar novamente ou deixar o micro desligado por mais algum tempo.

Será uma falha de Hardware? Porque o problema ocorre mais no Ubuntu que no Windows?

Grato por qualquer ajuda.

promurilo

Pesquisando um pouco na Internet, utilizei o comando a seguir (coloquei também a saída do comando). Reparei que o erro acontece sempre igual (se não estou enganado): 04 51 01 00 00 00 e0. E sempre aparece um código: error ABRT.

Como interpretar isso?

sudo smartctl -l error /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
ATA Error Count: 30 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 30 occurred at disk power-on lifetime: 3774 hours (157 days + 6 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 01 00 00 00 e0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------

Error 29 occurred at disk power-on lifetime: 3774 hours (157 days + 6 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 bf 1a 3c a0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c6 00 00 bf 1a 3c a0 00      00:00:22.790  SET MULTIPLE MODE

Error 28 occurred at disk power-on lifetime: 3774 hours (157 days + 6 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 08 bf 1a 3c e0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------

Error 27 occurred at disk power-on lifetime: 3774 hours (157 days + 6 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 08 bf 1a 3c e0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------

Error 26 occurred at disk power-on lifetime: 3774 hours (157 days + 6 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 08 bf 1a 3c e0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------

bred81

#2
Não sei o que significa o que esses comandos significam, mas, quando tem erro, não é bom.
Eu faço um teste que é matador.
Com um live-cd:
sudo mke2fs -c -c /dev/sda
Cuidado
Isso vai formatar seu hd.
Mas o que ele faz é o seguinte:
Ele vai escrever 160GB (tamanho do seu hd) de palavras 0xA e depois ler.
Ele vai escrever 160GB (tamanho do seu hd) de palavras 0x5 e depois ler.
Ele vai escrever 160GB (tamanho do seu hd) de palavras 0xF e depois ler.
Ele vai escrever 160GB (tamanho do seu hd) de palavras 0x0 e depois ler.
Depois de lido e comparado, ele te entregará o HD formatado em etx2.

Se você quiser fazer isso só na partição do linux:
sudo mke2fs -c -c /dev/particao_linux
Cuidado
Isso vai formatar seu hd.

Se durante os testes você ouvir estalos ou ele congelar ou ele acusar algum erro, pode jogar o HD no lixo...

Estou fazendo isso a 4 dias num HD de 1TB que tenho usb pra ver se ele está bem, pois ele estava formatado em fat32 e de vez em quando ele perdia (sim, no meio do nada) a permissão de escrita.
Ainda acho que algum bug no kernel ou no Ubuntu mesmo (pois só começou a acontecer isso no kernel 23 pra cima), mas estou fazendo o teste pra ver se tem algum problema...
O que o Mario foi fazer no pscicólogo?
- Ele estava passando por uma fase difícil...

promurilo

Obrigado pela dica. Mas não posso formatar meu HD no momento. Possuo muitos programas instalados e trabalhos em andamento.

Entretanto, acho que encontrei uma solução para o meu problema.

Sempre que eu iniciava o meu Ubuntu, recebia uma sequência de mensagens como esta, antes de entrar o splash do Ubuntu ou Kubuntu (eu uso o Kubuntu, mas no Ubuntu sempre recebi essa mensagem estranha também):

no irq handler for vector (irq-1)

Pensei que isso acontecia só na inicialização. Entretanto, isso sempre me intrigou. Certamente, este era um aviso do kernel avisando que algo não vai bem. Fui então ver os logs do sistema pelo KDE (menu principal --> Aplicativos --> Sistema --> Visualizador de logs do sistema). Reparei que a mensagem aparecia também muitas vezes. Quando pedia para atualizar a lista, constatei que as mensagens também apareciam durante o uso do sistema, não só na inicialização.

Fiz uma pesquisa pelo Google então, e cheguei ao seguinte link (em inglês):

http://lime-technology.com/forum/index.php?topic=5005.0

e este aqui, que fornece uma solução (também em inglês):

http://ubuntuforums.org/archive/index.php/t-1234983.html

Um dos usuários desse fórum usa uma placa mãe idêntica a minha: a ASUS P5VD2X. Como ela possui o chip-set VIA... A solução para a mensagem de erro consiste em abrir o arquivo de configurações do Grub com o kate (ou gedit, para quem usa o gnome):

$ sudo kate /etc/default/grub

Alterar a linha

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"

para o seguinte:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=nomsi,noaer"

Depois, atualizar o grub:

$ sudo update-grub

Os efeitos dessa alteração que eu pude notar:
1. O barulhinho chato do HD sumiu.
2. As mensagens "no irq handler..." desapareceram do log do sistema totalmente.
3. Houve um efeito secundário: meu HD agora trabalha a uma temperatura de 46°. Antes ele ficava sempre em 43°, chegando no máximo a 44°.

Algum usuário poderia me ajudar a interpretar tudo isso? Um aumento de temperatura como esse pode comprometer a vida útil do HD?
Qual o real efeito do parâmetro "pci=nomsi,noaer"?
Obrigado a todos pela atenção.

bee50cent

 ??? Bom seu problemas é o conceito dos "estalos" e você  não pode fazer, uma
formatação do hd pois tem muitos arquivos e programas.

Resposta: A questão de arquvos e programas.
Você pode fazer o backup em um dispositivo de mídia, exemplo
cd's,Cd-r,dvd's etc...
depois de fazer a formatação para um sistema (ou o mesmo),
que aceite seus dados gravados exemplo em um cd.

Resposta com problemas do "estalo":
estarei lendo em um livro de hardware o que possuo o que posso
fazer para ajudar vossa pessoa no problema,
breve estarei procurando ajuda-lo.  ;)
-----------------------------------
Visitem o site do meu projeto:
www.linuxrenascent.webnode.pt

promurilo

Infelizmente o processo que narrei acima não resolveu...

Fui iniciar a máquina e novamente deu aquele "estalo". Entretanto, após algumas tentativas, o sistema voltou a funcionar novamente. Estou começando a achar que é falha no hardware mesmo.

O estranho é que qualquer programa de diagnóstico do HD que eu uso diz simplesmente que o HD está "saudável".

O mais estranho é que isso só ocorre no Linux.
Outro detalhe é que, ultimamente, quando ocorre os "estalos", há uma grande queda de desempenho enquanto uso o computador. Por vezes acontecem pequenas "travadinhas". O sistema congela por alguns segundos e depois retorna.

Mas na maior parte do tempo o sistema funciona normalmente.

bred81

Citação de: promurilo online 29 de Julho de 2010, 15:58
Infelizmente o processo que narrei acima não resolveu...

Fui iniciar a máquina e novamente deu aquele "estalo". Entretanto, após algumas tentativas, o sistema voltou a funcionar novamente. Estou começando a achar que é falha no hardware mesmo.

O estranho é que qualquer programa de diagnóstico do HD que eu uso diz simplesmente que o HD está "saudável".

O mais estranho é que isso só ocorre no Linux.
Outro detalhe é que, ultimamente, quando ocorre os "estalos", há uma grande queda de desempenho enquanto uso o computador. Por vezes acontecem pequenas "travadinhas". O sistema congela por alguns segundos e depois retorna.

Mas na maior parte do tempo o sistema funciona normalmente.
Mesmo antes de conhecer o Linux, eu nunca confiei em nenhum teste realizado pelo Windows. Até mesmo defrag é falho...

Uma coisa que eu me toquei agora:
Pode ser que aquele setor aonde está o linux está com defeito. O Windows pode estar na parte saudável do seu disco. Isso explicaria os estalos só acontecerem no linux. Outra coisa que eu sei, o sistema ext* tenta "consertar" (não sei se essa é a melhor palavra) esses setores, isso também poderia ser o motivo da baixa performance durante esses acontecimentos...
O que o Mario foi fazer no pscicólogo?
- Ele estava passando por uma fase difícil...

promurilo

É verdade... Eu não havia pensado nessa possibilidade.

Vou tentar rodar o fsck pelo livecd do Kubuntu. Depois retorno os resultados.

Obrigado pela ajuda.

promurilo

Olá a todos.

Fiz a verificação da partição pelo live-CD do Kubuntu. Uso o sistema de arquivos ext4. O comando foi o seguinte:

sudo fsck.ext4 -c /dev/sda1

Utilizei-o para verificar a partição do sistema, que tem um 10GB.

Ao executar o comando, logo aos 6% ouvi o "estalo". Depois disso, até chegar aos 30% foram uns seis ou sete "estalos" no HD ao todo. Após os 30%, não ouve mais estalos e a verificação continuou sem problemas. Tudo durou no máximo uns seis minutos.

Após isso, o programa retornou a seguinte saída:

Citar/dev/sda1: ***** FILE SYSTEM WAS MODIFIED
217799/640848 files (0,2% non-contigues), 1829934/2560351

Bem.. agora estou meio perdido. Não consigo saber se há ou não bad-blocks. O fsck não retornou nenhuma mensagem além dessa. Não pediu nenhuma confirmação. Nada. Existem algum arquivo de log ou coisa semelhante que fique na partição após a verificação que me permita avaliar a situação do HD? Usei o comando correto?

bred81

Citação de: promurilo online 31 de Julho de 2010, 12:27
Olá a todos.

Fiz a verificação da partição pelo live-CD do Kubuntu. Uso o sistema de arquivos ext4. O comando foi o seguinte:

sudo fsck.ext4 -c /dev/sda1

Utilizei-o para verificar a partição do sistema, que tem um 10GB.

Ao executar o comando, logo aos 6% ouvi o "estalo". Depois disso, até chegar aos 30% foram uns seis ou sete "estalos" no HD ao todo. Após os 30%, não ouve mais estalos e a verificação continuou sem problemas. Tudo durou no máximo uns seis minutos.

Após isso, o programa retornou a seguinte saída:

Citar/dev/sda1: ***** FILE SYSTEM WAS MODIFIED
217799/640848 files (0,2% non-contigues), 1829934/2560351

Bem.. agora estou meio perdido. Não consigo saber se há ou não bad-blocks. O fsck não retornou nenhuma mensagem além dessa. Não pediu nenhuma confirmação. Nada. Existem algum arquivo de log ou coisa semelhante que fique na partição após a verificação que me permita avaliar a situação do HD? Usei o comando correto?
Infelizmente não conheço esse comando.
Esses 10GB são "perdíveis" (sucetíveis a formatação)?
O que o Mario foi fazer no pscicólogo?
- Ele estava passando por uma fase difícil...

promurilo

Eu tenho uma partição ext4 de 10GB para o sistema e uma outra de uns 60GB para arquivos, também em formato ext4.
Fazer backup dos arquivos está tranquilo, pois tenho um outro HD. Mas formatar a partição do sistema agora, só em último caso, pois já tenho muitos programas instalados e o sistema já está configurado.

Se eu não conseguir diagnosticar definitivamente o HD sem apagar o sistema, então eu vou passar para a formatação mesmo.

No caso, bred81, o comando mke2fs não permite retornar a partição no formato ext4, que é mais atual?

Grato pela ajuda.

promurilo

#11
Fiz agora o auto teste com smartctl. O resultado foi o seguinte:

Usei o comando a seguir para fazer o auto teste do SMART no HD:

$ smartctl -t long /dev/hda

Depois, rodei esse comando para verificar os resultados:
$ sudo smartctl -l selftest /dev/sda

Saída:

Citar
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      5603         -
# 2  Short offline       Completed without error       00%      5601         -

Bem... aprece que não há mesmo setores defeituosos nessa partição. Mas ainda não estou satisfeito. Quero saber o que eram aqueles "clec - clec" no HD. Por isso, a próxima etapa da minha investigação vai ser usar o comando badblocks com o live cd de novo. Em breve posto o resultado...

Muito obrigado a todos.

promurilo

Fiz a busca por setores defeituosos nas partições ext4 (badblocks), usando o live cd do Kubuntu:

Citar
ubuntu@ubuntu:~$ sudo badblocks -s /dev/sda1
Checking for badblocks (read-only test): done
ubuntu@ubuntu:~$ sudo badblocks -s /dev/sda2
Checking for badblocks (read-only test): done

Bem. O problema dos estalos não é badblocks. Durante o teste, não houve nenhum estalo.

bred81

Citação de: promurilo online 31 de Julho de 2010, 19:09
Eu tenho uma partição ext4 de 10GB para o sistema e uma outra de uns 60GB para arquivos, também em formato ext4.
Fazer backup dos arquivos está tranquilo, pois tenho um outro HD. Mas formatar a partição do sistema agora, só em último caso, pois já tenho muitos programas instalados e o sistema já está configurado.

Se eu não conseguir diagnosticar definitivamente o HD sem apagar o sistema, então eu vou passar para a formatação mesmo.

No caso, bred81, o comando mke2fs não permite retornar a partição no formato ext4, que é mais atual?

Grato pela ajuda.
Você sempre pode formatar o hd novamente, principalmente se tiver o GParted :D
Agora, o teste de badblock não deveria formatar o hd/partição também?

O teste que eu pesquisei escrevia no hd para depois ver se foi escrito correto...
O que o Mario foi fazer no pscicólogo?
- Ele estava passando por uma fase difícil...

promurilo

Esse teste eu descobri pesquisando no Google. Ele já vem instalado no Linux e só faz uma leitura de cada setor, sem escrever nele. O número de vezes que a leitura é feita pode também ser especificada no comando.