Descarregar muitas imagens de um Website pode ser bastante demorado.
Clicar direito, Guardar Imagem Como…, repetir ad nauseam.
Nestes casos, o raspagem da Web é a solução para o seu problema. Neste tutorial, vamos rever como extrair a URL de cada imagem de uma página web usando um raspador web gratuito.
Também vamos rever como usar esta lista extraída para baixar rapidamente todas as imagens para o seu computador.
Sinta-se livre para clicar em qualquer um dos links para saltar para uma determinada parte da guia
ParseHub e Web Scraping
Para completar esta simples tarefa, você precisará de um web scraper que possa coletar as URLs em questão. ParseHub é um scraper web gratuito e incrivelmente poderoso, o candidato perfeito para essa tarefa.
Não deixe de baixar e instalar ParseHub antes de começar.
Raspando URLs de imagens
Para este exemplo, vamos assumir que estamos interessados em baixar todas as imagens das primeiras 5 páginas de resultados no Amazon.ca para “earbuds sem fio”. Esta informação pode ser potencialmente incrivelmente valiosa para análise da concorrência.
Próximo começo
- Após o download do ParseHub, certifique-se de tê-lo instalado e funcionando no seu computador.
- Receba a URL específica da página que iremos raspar.
Criando um Projeto
- No ParseHub, clique em “Novo Projeto” e digite a URL do site da Amazon que estaremos raspando.
- A página web agora será renderizada no ParseHub e você poderá escolher as imagens que você quer raspar.
Select Images to Scrape
- Begin selecionando a primeira imagem do resultado da busca. Ficará então verde, significando que foi selecionada para ser raspada.
- O resto das imagens na página de resultados da busca ficará então amarelo. Clique na segunda imagem para selecionar todas as imagens da página. Todas elas ficarão verdes, o que significa que foram selecionadas para serem extraídas.
- Desde que estas imagens também funcionam como links para as páginas de produtos, ParseHub está extraindo tanto a URL da imagem como o link para o qual ela está apontando (página de produtos). Como resultado, vamos apagar a seleção da URL da barra lateral esquerda e manter apenas a seleção da imagem.
- Agora o ParseHub vai raspar cada URL da imagem para a primeira página de resultados.
Paginação
Agora precisamos dizer ao ParseHub para extrair esta mesma informação mas para as próximas 5 páginas de resultados de pesquisa.
- Clique no sinal PLUS(+) ao lado da seleção da página e use o comando select.
- Depois clique no botão “Next” e no fundo da página de resultados da pesquisa.
- Por defeito, o ParseHub irá extrair o link do botão Next. Então clicaremos no ícone ao lado da seleção “Next” (Próximo) e removeremos os dois itens abaixo dele.
- Ultrapassaremos então o sinal PLUS(+) ao lado da seleção “next” e usaremos o comando “click”.
- Surgirá uma janela perguntando se este é um link de Próxima Página. Clique em “Yes” e digite o número de vezes que você gostaria que este ciclo se repetisse. Para este exemplo, vamos fazê-lo 5 vezes.
Raspar e Exportar Dados
Agora vem a parte divertida, vamos deixar o ParseHub correr e extrair a lista de URLs para cada imagem que selecionamos.
- Clique no botão “Obter Dados” na barra lateral esquerda.
- Aqui você pode selecionar quando executar o seu raspar. Embora nós sempre aconselhamos testar suas raspagens antes de executar uma raspagem completa, nós apenas executaremos a raspagem agora mesmo para este exemplo.
- Now ParseHub irá raspar a URL da imagem que você selecionou. Você pode esperar nesta tela ou deixar o ParseHub, você será notificado assim que a raspagem estiver completa. Este processo levou menos de 1 minuto neste caso.
- Após que seus dados estejam prontos para download, clique no botão CSV/Excel. Agora você pode salvar e renomear o seu arquivo.
Download Images to your Device
Agora temos uma lista de todas as URLs para cada imagem, vamos em frente e baixá-las para o nosso dispositivo com uma simples ferramenta.
Para isso, vamos usar a extensão Tab Save chrome.
Once instalada no seu navegador, abra a extensão clicando no seu ícone. Isto abrirá a extensão, depois clique no botão editar no canto inferior esquerdo para introduzir os URLs que acabámos de extrair.
Quando clicar no ícone de download no canto inferior direito da janela da extensão, todas as imagens serão automaticamente descarregadas para o seu dispositivo. Isto pode levar alguns segundos, dependendo de quantas imagens você está baixando.
Final Thoughts
Following cada passo neste guia, você terminará com uma pasta com todas as imagens que você precisava baixar. Neste caso, baixamos mais de 330 imagens da Amazon em menos de 5 minutos.
Agora, se me dão licença, tenho de ir e apagar todas estas imagens do meu disco rígido.
>
Download ParseHub for Free today
Você também pode estar interessado em ler outros guias:
- Como usar uma ferramenta de extração de dados para raspar AutoTrader
- Raspar Dados do Rakuten
- Como raspar dados do produto Amazon: Nomes, Preços, ASIN, etc