Pessoal nesse primeiro artigo de 2013 iremos ver um pouco sobre o
WebHTTrack. O WebHTTrack é um web crawler livre e de código aberto e também
navegador offline, desenvolvido por Xavier Roche e licenciado sob a GNU General
Public License. Permite o download de sites da World Wide Web da Internet para
um computador local. Por padrão, o WebHTTrack organiza o site baixado pela sua
estrutura original. O website baixado (ou "copiado") pode ser
pesquisado através da abertura de uma página do site em um navegador.
O WebHTTrack pode também atualizar um site copiado existente e
recomeçar downloads interrompidos. WebHTTrack é totalmente configurável por
opção e por filtros (incluir/excluir) e possui um sistema integrado de ajuda. O
WebHTTrack usa um web crawler para fazer download de um website. Algumas partes
do site não podem ser transferidas, por padrão, devido ao protocolo de exclusão
de robôs, a não ser que seja desabilitado durante o programa.
Fonte: wikipedia.org
Depois de um
pouco de teoria vamos para a pratica, estamos utilizando o Linux mint como
laboratorio:
Para
instalar o WebHTTrack basta:
# aptitude install webhttrack
# webhttrack
Mude o
Idioma de acordo com sua necessidade como é mostrado na imagem abaixo e depois
clique em próximo:
Na próxima etapa
iremos criar o nome do novo projeto, como irei copiar a pagina do manual do
Debian coloquei o nome de Manual Debian:
Agora iremos colocar o link que queremos copiar, (espero que não haja
problema em usar o link do manual do Debian, bem acho que não, uma vez que ele
é publico), o link é: http://debian-handbook.info/browse/pt-BR/stable/
, repare que existe um botão chamado definir opções, ao clicar nele você irá
ver um bocado de opções que poderão ser alteradas de acordo com sua necessidade
e vontade, algumas delas são, uso de Proxy, robots.txt, testar links proibidos,
estruturas, controle de fluxo, identificação de navegador, entre outros.
Na próxima opção
é só deixar marcada a primeira opção mesmo:
Agora é só
esperar o WebHTTrack fazer o trabalho dele e pronto.
Depois da
cópia concluída é só acessar o caminho informado na tela de conclusão e
executar o índex.html e você verá que o link informado foi copiado
perfeitamente.
Obs: Observem na url o caminho do arquivo.
Bem pessoal é isso ai espero que tenham gostado desse post, até a próxima.
Nenhum comentário:
Postar um comentário