sábado, 12 de janeiro de 2013

Copiando Sites Com o WebHTTrack


Pessoal nesse primeiro artigo de 2013 iremos ver um pouco sobre o WebHTTrack. O WebHTTrack é um web crawler livre e de código aberto e também navegador offline, desenvolvido por Xavier Roche e licenciado sob a GNU General Public License. Permite o download de sites da World Wide Web da Internet para um computador local. Por padrão, o WebHTTrack organiza o site baixado pela sua estrutura original. O website baixado (ou "copiado") pode ser pesquisado através da abertura de uma página do site em um navegador.

O WebHTTrack pode também atualizar um site copiado existente e recomeçar downloads interrompidos. WebHTTrack é totalmente configurável por opção e por filtros (incluir/excluir) e possui um sistema integrado de ajuda. O WebHTTrack usa um web crawler para fazer download de um website. Algumas partes do site não podem ser transferidas, por padrão, devido ao protocolo de exclusão de robôs, a não ser que seja desabilitado durante o programa.

HTTrack pode seguir links que são gerados com JavaScript básico e dentro de Applets ou Flash, mas não ligações complexas (geradas usando funções ou expressões).
Fonte: wikipedia.org

Depois de um pouco de teoria vamos para a pratica, estamos utilizando o Linux mint como laboratorio:

Para instalar o WebHTTrack basta:

# aptitude install webhttrack

 Depois de instalar é só abrir o terminal e digitar:

# webhttrack

 Após isto o navegador ira ser executado com a pagina do webhttrack.

Mude o Idioma de acordo com sua necessidade como é mostrado na imagem abaixo e depois clique em próximo:














Na próxima etapa iremos criar o nome do novo projeto, como irei copiar a pagina do manual do Debian coloquei o nome de Manual Debian:














Agora iremos colocar o link que queremos copiar, (espero que não haja problema em usar o link do manual do Debian, bem acho que não, uma vez que ele é publico), o link é: http://debian-handbook.info/browse/pt-BR/stable/ , repare que existe um botão chamado definir opções, ao clicar nele você irá ver um bocado de opções que poderão ser alteradas de acordo com sua necessidade e vontade, algumas delas são, uso de Proxy, robots.txt, testar links proibidos, estruturas, controle de fluxo, identificação de navegador, entre outros.














Na próxima opção é só deixar marcada a primeira opção mesmo:














Agora é só esperar o WebHTTrack fazer o trabalho dele e pronto.
















Depois da cópia concluída é só acessar o caminho informado na tela de conclusão e executar o índex.html e você verá que o link informado foi copiado perfeitamente.














Obs: Observem na url o caminho do arquivo.

Bem pessoal é isso ai espero que tenham gostado desse post, até a próxima.



Nenhum comentário:

Postar um comentário