Como Raspar e Descarregar Imagens de qualquer Website

Descarregar muitas imagens de um Website pode ser bastante demorado.

Clicar direito, Guardar Imagem Como…, repetir ad nauseam.

Nestes casos, o raspagem da Web é a solução para o seu problema. Neste tutorial, vamos rever como extrair a URL de cada imagem de uma página web usando um raspador web gratuito.

Também vamos rever como usar esta lista extraída para baixar rapidamente todas as imagens para o seu computador.

Sinta-se livre para clicar em qualquer um dos links para saltar para uma determinada parte da guia

ParseHub e Web Scraping

Para completar esta simples tarefa, você precisará de um web scraper que possa coletar as URLs em questão. ParseHub é um scraper web gratuito e incrivelmente poderoso, o candidato perfeito para essa tarefa.

Não deixe de baixar e instalar ParseHub antes de começar.

Raspando URLs de imagens

Para este exemplo, vamos assumir que estamos interessados em baixar todas as imagens das primeiras 5 páginas de resultados no Amazon.ca para “earbuds sem fio”. Esta informação pode ser potencialmente incrivelmente valiosa para análise da concorrência.

Próximo começo

  1. Após o download do ParseHub, certifique-se de tê-lo instalado e funcionando no seu computador.
  2. Receba a URL específica da página que iremos raspar.

Criando um Projeto

  1. No ParseHub, clique em “Novo Projeto” e digite a URL do site da Amazon que estaremos raspando.
  2. A página web agora será renderizada no ParseHub e você poderá escolher as imagens que você quer raspar.
Usando ParseHub para raspar e baixar imagens em qualquer site, usando a amazon por exemplo
Usando ParseHub para raspar e baixar imagens em qualquer site, usando a amazon por exemplo

Select Images to Scrape

  1. Begin selecionando a primeira imagem do resultado da busca. Ficará então verde, significando que foi selecionada para ser raspada.
 imagens de raspagem da web
imagens de raspagem da web: fones de ouvido estão sendo raspados
  1. O resto das imagens na página de resultados da busca ficará então amarelo. Clique na segunda imagem para selecionar todas as imagens da página. Todas elas ficarão verdes, o que significa que foram selecionadas para serem extraídas.
Todas as imagens que vão ser raspadas são seladas
Todas as imagens que vão ser raspadas são selecionadas.
  1. Desde que estas imagens também funcionam como links para as páginas de produtos, ParseHub está extraindo tanto a URL da imagem como o link para o qual ela está apontando (página de produtos). Como resultado, vamos apagar a seleção da URL da barra lateral esquerda e manter apenas a seleção da imagem.
delete extracted url selection
  1. Agora o ParseHub vai raspar cada URL da imagem para a primeira página de resultados.

Paginação

Agora precisamos dizer ao ParseHub para extrair esta mesma informação mas para as próximas 5 páginas de resultados de pesquisa.

  1. Clique no sinal PLUS(+) ao lado da seleção da página e use o comando select.
Clique na função select e escolha o botão next
Clique na função select e escolha o botão next.
  1. Depois clique no botão “Next” e no fundo da página de resultados da pesquisa.
  2. Por defeito, o ParseHub irá extrair o link do botão Next. Então clicaremos no ícone ao lado da seleção “Next” (Próximo) e removeremos os dois itens abaixo dele.
Clique aqui para expandir e excluir ambos os comandos
Clique aqui para expandir e excluir ambas as seleções
Delete URL from next button
delete url link from the next button
  1. Ultrapassaremos então o sinal PLUS(+) ao lado da seleção “next” e usaremos o comando “click”.
  2. Surgirá uma janela perguntando se este é um link de Próxima Página. Clique em “Yes” e digite o número de vezes que você gostaria que este ciclo se repetisse. Para este exemplo, vamos fazê-lo 5 vezes.
Click yes to deal with pagination
Click yes when asked this a next page button to deal with pagination.

Raspar e Exportar Dados

Agora vem a parte divertida, vamos deixar o ParseHub correr e extrair a lista de URLs para cada imagem que selecionamos.

  1. Clique no botão “Obter Dados” na barra lateral esquerda.
  2. Aqui você pode selecionar quando executar o seu raspar. Embora nós sempre aconselhamos testar suas raspagens antes de executar uma raspagem completa, nós apenas executaremos a raspagem agora mesmo para este exemplo.
Test, Run, Schedule options
  1. Now ParseHub irá raspar a URL da imagem que você selecionou. Você pode esperar nesta tela ou deixar o ParseHub, você será notificado assim que a raspagem estiver completa. Este processo levou menos de 1 minuto neste caso.
  2. Após que seus dados estejam prontos para download, clique no botão CSV/Excel. Agora você pode salvar e renomear o seu arquivo.

Download Images to your Device

Agora temos uma lista de todas as URLs para cada imagem, vamos em frente e baixá-las para o nosso dispositivo com uma simples ferramenta.

Para isso, vamos usar a extensão Tab Save chrome.

Once instalada no seu navegador, abra a extensão clicando no seu ícone. Isto abrirá a extensão, depois clique no botão editar no canto inferior esquerdo para introduzir os URLs que acabámos de extrair.

Quando clicar no ícone de download no canto inferior direito da janela da extensão, todas as imagens serão automaticamente descarregadas para o seu dispositivo. Isto pode levar alguns segundos, dependendo de quantas imagens você está baixando.

Pressing the Download Button

Final Thoughts

Following cada passo neste guia, você terminará com uma pasta com todas as imagens que você precisava baixar. Neste caso, baixamos mais de 330 imagens da Amazon em menos de 5 minutos.

desktop de todas as imagens raspadas

Agora, se me dão licença, tenho de ir e apagar todas estas imagens do meu disco rígido.

>

Download ParseHub for Free today

Você também pode estar interessado em ler outros guias:

  • Como usar uma ferramenta de extração de dados para raspar AutoTrader
  • Raspar Dados do Rakuten
  • Como raspar dados do produto Amazon: Nomes, Preços, ASIN, etc

Deixe uma resposta

O seu endereço de email não será publicado.