Como listar a "árvore" de um website?

Iniciado por rudregues, 01 de Agosto de 2015, 16:34

tópico anterior - próximo tópico

rudregues

Fala galera, vou explicar minha dúvida.

Sabe quando a gente lista os diretórios com o comando ls?
Gostaria de saber como podemos "listar um website". E também se é possível listar todo o conteúdo de um site ("subsites", arquivos contidos nele etc). Tipo quando a gente faz uma listagem recursiva e lista um diretório e todos seus subdiretórios.
Gentoo — Controle total sobre o sistema.

irtigor

Depende do que realmente quer. Dá pra usar o wget ou curl pra baixar um site inteiro em um modo verboso redirecionando os downloads pra /dev/null, mas se tá atrás de algo especifico é melhor usar a api do site ou um scraper como o scrapy.

rudregues

Citação de: irtigor online 01 de Agosto de 2015, 16:55
Depende do que realmente quer. Dá pra usar o wget ou curl pra baixar um site inteiro em um modo verboso redirecionando os downloads pra /dev/null, mas se tá atrás de algo especifico é melhor usar a api do site ou um scraper como o scrapy.
Obrigado pela dica irtigor. Meu objetivo era criar uma lista com todas as URL's de um determinado site pra depois baixar.
Exemplo:
Suponha um site wiki.com que possui apenas três links para wiki.com/vida, wiki.com/about e wiki.com/objetivos. Neste caso a lista seria:
wiki.com
wiki.com/vida
wiki.com/about
wiki.com/objetivos

E depois de criar essa lista eu iria baixá-los um a um. Eu tinha visto o wget e o curl, mas achei os dois insuficientes pra baixar uma página bonita e que ficasse legal de visualizar no firefox. Por isso decidi essa outra abordagem de primeiro criar uma lista e depois salvar com o google-chrome (que gera a melhor visualização offline na minha opinião). Esse scrapy achei muito difícil de compreender e pouco documentado (leigos em web como eu precisam de muitos exemplos pela internet, senão ficam perdidos rs), mas é bom saber que existe um programa avançado como esse pra retirar informações de sites.

Maaas... descobri um programa chamado httrack que aparentemente está dando um bom resultado. Ele baixa o site recursivamente gerando uma visualização boa que nem quando salvo pelo chrome. Achei este programa tão formidável que estou pensando em colocar uma dica/tutorial de como usei-o.
Gentoo — Controle total sobre o sistema.

NathanRodriguez

Realmente eficaz pra fazer uma copia de um website o httrack, havia usado ele no Windows já, legal saber que é multiplataforma.
Meu blog: VST Plugins Free

zekkerj

Citação de: rudregues online 01 de Agosto de 2015, 18:34Maaas... descobri um programa chamado httrack que aparentemente está dando um bom resultado. Ele baixa o site recursivamente gerando uma visualização boa que nem quando salvo pelo chrome. Achei este programa tão formidável que estou pensando em colocar uma dica/tutorial de como usei-o.
Que tal contribuir ($$$) com o projeto? Também é uma forma de agradecer ao esforço dos desenvolvedores.
[Nota: nem sei se esse projeto pede ou aceita contribuições financeiras, foi apenas uma forma de aproveitar o gancho.]
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

rudregues

Citação de: zekkerj online 08 de Agosto de 2015, 12:29
Que tal contribuir ($$$) com o projeto? Também é uma forma de agradecer ao esforço dos desenvolvedores.
[Nota: nem sei se esse projeto pede ou aceita contribuições financeiras, foi apenas uma forma de aproveitar o gancho.]
Fim do ano vou ganhar um extra e já tenho uma lista de diversos programas/projetos que em muito me ajudaram/ajudam e pretendo fazer uma doação pra eles. Até agora a lista possui GIMP, Inkscape, Firefox e alguns plugins excelentes, Ubuntu, Gentoo, Dwarf Fortress, QGIS, Redshift, Texmaker, Maxima, Libreoffice, PostGIS, GRASS, Spyder3, Octave, pgAdmin3, website Phoronix. Deve ter outros que esqueci, mas depois verei com calma.

Ainda não sei quanto vou doar pra cada um ou se doarei mesmo para todos. A idéia é doar entre 200,00 e 300,00 reais no total, porém o que me preocupa é a baixa do real: imagina eu doar todo esse dinheiro e lá fora ele valer poucos dólares? Mas é o jeito né (obrigado PT e Dilma rsrs).
Gentoo — Controle total sobre o sistema.