Rede caindo constantemente

Iniciado por leandrorodrigosantos, 13 de Maio de 2013, 16:52

tópico anterior - próximo tópico

leandrorodrigosantos

Fui me certificar disso ja, reconfigurei todos os ip's.
As Maquinas estava todas para obterem ip's automáticos, então eu coloquei ip's em todas.
Fiz um outro teste que se mostrou estranho, o Servidor era ligado no switch de 8 Portas, até ai tudo bem.
Hoje liguei o server no router dlink e virou simplesmente um inferno, a o server começou a cair de 15 em 15 minutos.
Dlink com problema? Ele pode estar causando a falha do Server?

zekkerj

CitarDlink com problema? Ele pode estar causando a falha do Server?
Se eu te disser o que eu já passei com switches dlink, vc não acredita.
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

leandrorodrigosantos

o Switch Dlink é novo, to pensando que pode ser o roteador

leandrorodrigosantos

Então galera.
Boa Tarde.
Voltando ao problema.
A rede estava num estado meio critico, os switchs tinham por volta de 10 anos cada um, o roteador estava com problema e tinha um micro com a placa mãe danificada.
Fiz a troca de todos os equipamentos, switchs, roteadores e o micro com problema atualizei a placa mãe e melhorou porém ele ja é velho.
Bom durantes uns 3 dias, funcionou tudo perfeitamente, coloquei o micro velho na rede funcionou apenas 2 dias, depois voltou todo o problema.
Agora estou retirando o micro da rede e mandei reiniciar todos os computadores, inclusive o servidor, para ver se o problema era o micro realmente.
Agora a minha pergunta, se não resolver, alguma luz de alguém?

leandrorodrigosantos

#19
Bom dia Pessoal.
Atualizei o Ubuntu 10.10 para o 12.04 como o colegas haviam me indicado, porém sem sucesso o problema continua.
Estou enviando o log do momento da queda para ver se alguém consegue me dar uma luz.

Jul  3 11:27:03 servidor NetworkManager[800]: <info> (eth0): IP6 addrconf timed out or failed.
Jul  3 11:27:03 servidor NetworkManager[800]: <info> Activation (eth0) Stage 4 of 5 (IPv6 Configure Timeout) scheduled...
Jul  3 11:27:03 servidor NetworkManager[800]: <info> Activation (eth0) Stage 4 of 5 (IPv6 Configure Timeout) started...
Jul  3 11:27:03 servidor NetworkManager[800]: <info> Activation (eth0) Stage 4 of 5 (IPv6 Configure Timeout) complete.
Jul  3 11:27:03 servidor ntpdate[3517]: adjust time server 91.189.89.199 offset -0.201189 sec
Jul  3 11:32:19 servidor kernel: [10938.016011] ------------[ cut here ]------------
Jul  3 11:32:19 servidor kernel: [10938.016022] WARNING: at /build/buildd/linux-lts-quantal-3.5.0/net/sched/sch_generic.c:255 dev_watchdog+0x1f2/0x200()
Jul  3 11:32:19 servidor kernel: [10938.016025] Hardware name: STI
Jul  3 11:32:19 servidor kernel: [10938.016028] NETDEV WATCHDOG: eth0 (r8169): transmit queue 0 timed out
Jul  3 11:32:19 servidor kernel: [10938.016030] Modules linked in: rfcomm bnep bluetooth coretemp kvm_intel kvm snd_hda_codec_realtek ppdev gpio_ich snd_hda_intel snd_hda_codec snd_hwdep snd_pcm snd_seq_midi snd_rawmidi microcode parport_pc snd_seq_midi_event snd_seq snd_timer psmouse serio_raw snd_seq_device i915 mac_hid drm_kms_helper drm i2c_algo_bit video lpc_ich snd soundcore snd_page_alloc lp parport sc92031 r8169
Jul  3 11:32:19 servidor kernel: [10938.016073] Pid: 0, comm: swapper/0 Not tainted 3.5.0-34-generic #55~precise1-Ubuntu
Jul  3 11:32:19 servidor kernel: [10938.016076] Call Trace:
Jul  3 11:32:19 servidor kernel: [10938.016083]  [<c1045c22>] warn_slowpath_common+0x72/0xa0
Jul  3 11:32:19 servidor kernel: [10938.016088]  [<c14ff1c2>] ? dev_watchdog+0x1f2/0x200
Jul  3 11:32:19 servidor kernel: [10938.016092]  [<c14ff1c2>] ? dev_watchdog+0x1f2/0x200
Jul  3 11:32:19 servidor kernel: [10938.016097]  [<c1045cf3>] warn_slowpath_fmt+0x33/0x40
Jul  3 11:32:19 servidor kernel: [10938.016101]  [<c14ff1c2>] dev_watchdog+0x1f2/0x200
Jul  3 11:32:19 servidor kernel: [10938.016108]  [<c10548bf>] call_timer_fn+0x2f/0x110
Jul  3 11:32:19 servidor kernel: [10938.016112]  [<c14fefd0>] ? pfifo_fast_dequeue+0xe0/0xe0
Jul  3 11:32:19 servidor kernel: [10938.016117]  [<c1055fbb>] run_timer_softirq+0xeb/0x200
Jul  3 11:32:19 servidor kernel: [10938.016121]  [<c14fefd0>] ? pfifo_fast_dequeue+0xe0/0xe0
Jul  3 11:32:19 servidor kernel: [10938.016126]  [<c104e120>] ? local_bh_enable_ip+0x90/0x90
Jul  3 11:32:19 servidor kernel: [10938.016130]  [<c104e1a1>] __do_softirq+0x81/0x1a0
Jul  3 11:32:19 servidor kernel: [10938.016134]  [<c104e120>] ? local_bh_enable_ip+0x90/0x90
Jul  3 11:32:19 servidor kernel: [10938.016137]  <IRQ>  [<c104e4f6>] ? irq_exit+0x76/0xa0
Jul  3 11:32:19 servidor kernel: [10938.016145]  [<c15e8969>] ? smp_apic_timer_interrupt+0x59/0x88
Jul  3 11:32:19 servidor kernel: [10938.016150]  [<c106b607>] ? hrtimer_start+0x27/0x30
Jul  3 11:32:19 servidor kernel: [10938.016155]  [<c15e1585>] ? apic_timer_interrupt+0x31/0x38
Jul  3 11:32:19 servidor kernel: [10938.016160]  [<c1018c7c>] ? mwait_idle+0x7c/0x200
Jul  3 11:32:19 servidor kernel: [10938.016165]  [<c1019596>] ? cpu_idle+0xb6/0xe0
Jul  3 11:32:19 servidor kernel: [10938.016169]  [<c15ad8c5>] ? rest_init+0x5d/0x68
Jul  3 11:32:19 servidor kernel: [10938.016174]  [<c18d3a14>] ? start_kernel+0x375/0x37b
Jul  3 11:32:19 servidor kernel: [10938.016179]  [<c18d3620>] ? pass_bootoption.constprop.3+0xaf/0xaf
Jul  3 11:32:19 servidor kernel: [10938.016183]  [<c18d3303>] ? i386_start_kernel+0xa6/0xad
Jul  3 11:32:19 servidor kernel: [10938.016186] ---[ end trace 8fb9cdc33660f165 ]---
Jul  3 11:32:19 servidor kernel: [10938.016378] r8169 0000:02:00.0: eth0: link up
Jul  3 11:32:29 servidor NetworkManager[800]: <info> (eth0): carrier now OFF (device state 100, deferring action for 4 seconds)
Jul  3 11:32:29 servidor kernel: [10947.787597] r8169 0000:02:00.0: eth0: link down
Jul  3 11:32:33 servidor NetworkManager[800]: <info> (eth0): device state change: activated -> unavailable (reason 'carrier-changed') [100 20 40]
Jul  3 11:32:33 servidor NetworkManager[800]: <info> (eth0): deactivating device (reason 'carrier-changed') [40]
Jul  3 11:32:33 servidor dnsmasq[3482]: finalizado ao receber aviso SIGTERM
Jul  3 11:32:33 servidor kernel: [10952.062762] IPv6: ADDRCONF(NETDEV_UP): eth0: link is not ready
Jul  3 11:32:33 servidor NetworkManager[800]: <info> DNS: starting dnsmasq...
Jul  3 11:32:33 servidor NetworkManager[800]: <info> (eth0): writing resolv.conf to /sbin/resolvconf
Jul  3 11:32:33 servidor dnsmasq[3550]: iniciado, versão 2.59 cache desabilitado
Jul  3 11:32:33 servidor dnsmasq[3550]: opções de tempo de compilação: IPv6 GNU-getopt DBus i18n DHCP TFTP conntrack IDN
Jul  3 11:32:33 servidor dnsmasq[3550]: aviso: não há servidores upstream configurados
Jul  3 11:32:33 servidor dbus[669]: [system] Activating service name='org.freedesktop.nm_dispatcher' (using servicehelper)
Jul  3 11:32:33 servidor dbus[669]: [system] Successfully activated service 'org.freedesktop.nm_dispatcher'
Jul  3 11:33:12 servidor NetworkManager[800]: <info> (eth0): carrier now ON (device state 20)
Jul  3 11:33:12 servidor NetworkManager[800]: <info> (eth0): device state change: unavailable -> disconnected (reason 'carrier-changed') [20 30 40]
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Auto-activating connection 'Conexão cabeada 1'.
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) starting connection 'Conexão cabeada 1'
Jul  3 11:33:12 servidor NetworkManager[800]: <info> (eth0): device state change: disconnected -> prepare (reason 'none') [30 40 0]
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 1 of 5 (Device Prepare) scheduled...
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 1 of 5 (Device Prepare) started...
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 2 of 5 (Device Configure) scheduled...
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 1 of 5 (Device Prepare) complete.
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 2 of 5 (Device Configure) starting...
Jul  3 11:33:12 servidor NetworkManager[800]: <info> (eth0): device state change: prepare -> config (reason 'none') [40 50 0]
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 2 of 5 (Device Configure) successful.
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 3 of 5 (IP Configure Start) scheduled.
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 2 of 5 (Device Configure) complete.
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 3 of 5 (IP Configure Start) started...
Jul  3 11:33:12 servidor kernel: [10990.801251] r8169 0000:02:00.0: eth0: link up
Jul  3 11:33:12 servidor kernel: [10990.801463] IPv6: ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
Jul  3 11:33:12 servidor NetworkManager[800]: <info> (eth0): device state change: config -> ip-config (reason 'none') [50 70 0]
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 5 of 5 (IPv4 Configure Commit) scheduled...
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Beginning IP6 addrconf.
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 3 of 5 (IP Configure Start) complete.
Jul  3 11:33:12 servidor NetworkManager[800]: <info> Activation (eth0) Stage 5 of 5 (IPv4 Commit) started...
Jul  3 11:33:13 servidor dnsmasq[3550]: finalizado ao receber aviso SIGTERM
Jul  3 11:33:13 servidor NetworkManager[800]: <info> DNS: starting dnsmasq...
Jul  3 11:33:13 servidor NetworkManager[800]: <info> (eth0): writing resolv.conf to /sbin/resolvconf
Jul  3 11:33:13 servidor dnsmasq[3574]: iniciado, versão 2.59 cache desabilitado
Jul  3 11:33:13 servidor dnsmasq[3574]: opções de tempo de compilação: IPv6 GNU-getopt DBus i18n DHCP TFTP conntrack IDN
Jul  3 11:33:13 servidor dnsmasq[3574]: usando nome de servidor 8.8.4.4#53
Jul  3 11:33:13 servidor dnsmasq[3574]: usando nome de servidor 8.8.8.8#53
Jul  3 11:33:13 servidor NetworkManager[800]: <info> (eth0): device state change: ip-config -> activated (reason 'none') [70 100 0]
Jul  3 11:33:13 servidor NetworkManager[800]: <info> Policy set 'Conexão cabeada 1' (eth0) as default for IPv4 routing and DNS.
Jul  3 11:33:13 servidor NetworkManager[800]: <info> Activation (eth0) successful, device activated.
Jul  3 11:33:13 servidor dbus[669]: [system] Activating service name='org.freedesktop.nm_dispatcher' (using servicehelper)
Jul  3 11:33:13 servidor NetworkManager[800]: <info> Activation (eth0) Stage 5 of 5 (IPv4 Commit) complete.
Jul  3 11:33:13 servidor dbus[669]: [system] Successfully activated service 'org.freedesktop.nm_dispatcher'
Jul  3 11:33:32 servidor NetworkManager[800]: <info> (eth0): IP6 addrconf timed out or failed.
Jul  3 11:33:32 servidor NetworkManager[800]: <info> Activation (eth0) Stage 4 of 5 (IPv6 Configure Timeout) scheduled...
Jul  3 11:33:32 servidor NetworkManager[800]: <info> Activation (eth0) Stage 4 of 5 (IPv6 Configure Timeout) started...
Jul  3 11:33:32 servidor NetworkManager[800]: <info> Activation (eth0) Stage 4 of 5 (IPv6 Configure Timeout) complete.
Jul  3 11:33:32 servidor ntpdate[3609]: adjust time server 91.189.89.199 offset -0.016962 sec


O log abaixo é de uma das maquinas que acessam o servidor:

[2013/07/03 08:50:37.332915,  0] param/loadparm.c:9114(process_usershare_file)
  process_usershare_file: stat of /var/lib/samba/usershares/hodie_sistemas failed. Permission denied
[2013/07/03 09:16:27.155841,  0] lib/fault.c:47(fault_report)
  ===============================================================
[2013/07/03 09:16:27.155938,  0] lib/fault.c:48(fault_report)
  INTERNAL ERROR: Signal 11 in pid 2816 (3.6.3)
  Please read the Trouble-Shooting section of the Samba3-HOWTO
[2013/07/03 09:16:27.156012,  0] lib/fault.c:50(fault_report)
 
  From: http://www.samba.org/samba/docs/Samba3-HOWTO.pdf
[2013/07/03 09:16:27.156075,  0] lib/fault.c:51(fault_report)
  ===============================================================
[2013/07/03 09:16:27.156122,  0] lib/util.c:1117(smb_panic)
  PANIC (pid 2816): internal error
[2013/07/03 09:16:27.161334,  0] lib/util.c:1221(log_stack_trace)
  BACKTRACE: 22 stack frames:
   #0 smbd(log_stack_trace+0x29) [0xb71a1ce9]
   #1 smbd(smb_panic+0x28) [0xb71a1de8]
   #2 smbd(+0x431f82) [0xb7190f82]
   #3 [0xb6d3c400]
   #4 /lib/i386-linux-gnu/libc.so.6(+0x84756) [0xb695e756]
   #5 smbd(rep_strlcpy+0x2e) [0xb7171e9e]
   #6 smbd(connections_fetch_entry+0xbf) [0xb71b054f]
   #7 smbd(yield_connection+0x48) [0xb6e19218]
   #8 smbd(close_cnum+0x8c) [0xb6e9c5ac]
   #9 smbd(conn_close_all+0xa7) [0xb6e210d7]
   #10 smbd(+0x70877e) [0xb746777e]
   #11 smbd(+0x708bee) [0xb7467bee]
   #12 smbd(+0x1384ef) [0xb6e974ef]
   #13 smbd(run_events_poll+0x366) [0xb71b4166]
   #14 smbd(smbd_process+0x9c0) [0xb6e98e40]
   #15 smbd(+0x708540) [0xb7467540]
   #16 smbd(run_events_poll+0x366) [0xb71b4166]
   #17 smbd(+0x45531b) [0xb71b431b]
   #18 smbd(_tevent_loop_once+0xa8) [0xb71b50e8]
   #19 smbd(main+0x1234) [0xb6e067d4]
   #20 /lib/i386-linux-gnu/libc.so.6(__libc_start_main+0xf3) [0xb68f34d3]
   #21 smbd(+0xa7e01) [0xb6e06e01]
[2013/07/03 09:16:27.161832,  0] lib/util.c:1122(smb_panic)
  smb_panic(): calling panic action [/usr/share/samba/panic-action 2816]
[2013/07/03 09:16:27.164210,  0] lib/util.c:1130(smb_panic)
  smb_panic(): action returned status 0
[2013/07/03 09:16:27.164291,  0] lib/fault.c:372(dump_core)
  dumping core in /var/log/samba/cores/smbd
[2013/07/03 09:30:14.677988,  0] param/loadparm.c:9114(process_usershare_file)
  process_usershare_file: stat of /var/lib/samba/usershares/hodie_sistemas failed. Permission denied
[2013/07/03 11:10:43.793233,  0] lib/sharesec.c:400(delete_share_security)
  delete_share_security: Failed to delete entry for share hodie_sistemas: NT_STATUS_NOT_FOUND
[2013/07/03 11:10:43.793467,  0] param/loadparm.c:9114(process_usershare_file)
  process_usershare_file: stat of /var/lib/samba/usershares/hodie_sistemas failed. Permission denied
[2013/07/03 11:42:58.196052,  0] lib/fault.c:47(fault_report)
  ===============================================================
[2013/07/03 11:42:58.196133,  0] lib/fault.c:48(fault_report)
  INTERNAL ERROR: Signal 11 in pid 3209 (3.6.3)
  Please read the Trouble-Shooting section of the Samba3-HOWTO
[2013/07/03 11:42:58.196206,  0] lib/fault.c:50(fault_report)
 
  From: http://www.samba.org/samba/docs/Samba3-HOWTO.pdf
[2013/07/03 11:42:58.196269,  0] lib/fault.c:51(fault_report)
  ===============================================================
[2013/07/03 11:42:58.196316,  0] lib/util.c:1117(smb_panic)
  PANIC (pid 3209): internal error
[2013/07/03 11:42:58.201588,  0] lib/util.c:1221(log_stack_trace)
  BACKTRACE: 22 stack frames:
   #0 smbd(log_stack_trace+0x29) [0xb71a1ce9]
   #1 smbd(smb_panic+0x28) [0xb71a1de8]
   #2 smbd(+0x431f82) [0xb7190f82]
   #3 [0xb6d3c400]
   #4 /lib/i386-linux-gnu/libc.so.6(+0x84756) [0xb695e756]
   #5 smbd(rep_strlcpy+0x2e) [0xb7171e9e]
   #6 smbd(connections_fetch_entry+0xbf) [0xb71b054f]
   #7 smbd(yield_connection+0x48) [0xb6e19218]
   #8 smbd(close_cnum+0x8c) [0xb6e9c5ac]
   #9 smbd(conn_close_all+0xa7) [0xb6e210d7]
   #10 smbd(+0x70877e) [0xb746777e]
   #11 smbd(+0x708bee) [0xb7467bee]
   #12 smbd(+0x1384ef) [0xb6e974ef]
   #13 smbd(run_events_poll+0x366) [0xb71b4166]
   #14 smbd(smbd_process+0x9c0) [0xb6e98e40]
   #15 smbd(+0x708540) [0xb7467540]
   #16 smbd(run_events_poll+0x366) [0xb71b4166]
   #17 smbd(+0x45531b) [0xb71b431b]
   #18 smbd(_tevent_loop_once+0xa8) [0xb71b50e8]
   #19 smbd(main+0x1234) [0xb6e067d4]
   #20 /lib/i386-linux-gnu/libc.so.6(__libc_start_main+0xf3) [0xb68f34d3]
   #21 smbd(+0xa7e01) [0xb6e06e01]
[2013/07/03 11:42:58.202075,  0] lib/util.c:1122(smb_panic)
  smb_panic(): calling panic action [/usr/share/samba/panic-action 3209]
[2013/07/03 11:42:58.204265,  0] lib/util.c:1130(smb_panic)
  smb_panic(): action returned status 0
[2013/07/03 11:42:58.204314,  0] lib/fault.c:372(dump_core)
  dumping core in /var/log/samba/cores/smbd
[2013/07/03 11:46:13.709792,  0] param/loadparm.c:9114(process_usershare_file)
  process_usershare_file: stat of /var/lib/samba/usershares/hodie_sistemas failed. Permission denied
[2013/07/03 12:24:50.053373,  0] param/loadparm.c:9114(process_usershare_file)
  process_usershare_file: stat of /var/lib/samba/usershares/hodie_sistemas failed. Permission denied


Você poderiam me ajudar a entender, está ocorrendo alguns erros e gostaria de entender se isso pode ser a causa da queda do server

zekkerj

Olha só, vc está recebendo uns erros estranhos, e eu não consegui descartar esses erros de estarem relacionados com problemas de hardware nesse servidor --- memória, placa mãe ou placa de rede.
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

leandrorodrigosantos

#21
Será que pode ser placa mãe ou memória?
A Placa de rede eu troquei ela uma vez, coloquei uma tplink gigabit, mas acabou piorando o problema, acabou caindo muito mais do que o normal.

Essa maquina funcionou muito bem, durante 2 anos e meio, será que por ela estar sofrendo constantes acessos o dia todo pode ter gerado problemas nela? Como na memória ou na placa mãe?

zekkerj

Então... como eu disse, não dá pra descartar ser problema de hardware ainda. Minha sugestão é que você faça um diagnóstico de hardware nela.
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

leandrorodrigosantos

Existe algum comando no linux que eu consiga fazer uma analise, se existe algum hardware com problema?
Ou existe algum programa que eu consiga fazer uma analise do hardware?

zekkerj

Não tenho de cabeça. Vamos ver o que os colegas dizem.
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

kalix

para testar disco rigido tem o Parted Magic é um live cd ou também tem a versão USB, tem um conjunto de ferramentas para testar o HD
voce ja tentou testes simples com comando ping para testar as conexões?talvez esteja perdendo pacotes

Arthur Bernardes


jkmsjq

LinuxUser: 548942 / Dando um tópico como resolvido
"A verdade só é agressiva a quem vive de mentiras". Autor desconhecido.
Twitter: @jeisonkertesz

leandrorodrigosantos

#28
Eu tenho um programa que fica dando ping no servidor, ele não da perda de pacotes, ele simplesmente cai.