Comment gratter et télécharger des images à partir de n’importe quel site web

Télécharger beaucoup d’images à partir d’un site web peut être assez long.

Clic droit, Enregistrer l’image sous…, répéter ad nauseam.

Dans ces cas, le web scraping est la solution à votre problème. Dans ce tutoriel, nous allons passer en revue comment extraire l’URL de chaque image sur une page web en utilisant un scraper web gratuit.

Nous allons également passer en revue comment utiliser cette liste extraite pour télécharger rapidement toutes les images sur votre ordinateur.

N’hésitez pas à cliquer sur n’importe lequel des liens pour sauter à une certaine partie du guide pratique

ParseHub et Web Scraping

Pour réaliser cette tâche simple, vous aurez besoin d’un scraper web capable de collecter les URL en question. ParseHub est un scraper web gratuit et incroyablement puissant, le candidat parfait pour cette tâche.

Assurez-vous de télécharger et d’installer ParseHub avant de commencer.

Scraping d’URL d’images

Pour cet exemple, nous supposerons que nous sommes intéressés à télécharger chaque image des 5 premières pages de résultats sur Amazon.ca pour  » wireless earbuds « . Cette information pourrait potentiellement être incroyablement précieuse pour l’analyse de la concurrence.

Démarrer

  1. Après avoir téléchargé ParseHub, assurez-vous que vous l’avez installé et exécuté sur votre ordinateur.
  2. Reprenez l’URL spécifique de la page que nous allons gratter.

Créer un projet

  1. Dans ParseHub, cliquez sur « Nouveau projet » et entrez l’URL du site web Amazon que nous allons gratter.
  2. La page web sera maintenant rendue dans ParseHub et vous pourrez choisir les images que vous voulez gratter.
Utiliser ParseHub pour gratter et télécharger des images sur n'importe quel site, en utilisant amazon par exemple
Utiliser ParseHub pour gratter et télécharger des images sur n’importe quel site, en utilisant amazon par exemple

Sélectionner les images à gratter

  1. Commencez par sélectionner la première image des résultats de la recherche. Elle deviendra alors verte, ce qui signifie qu’elle a été sélectionnée pour être scrappée.
images de scraping web
images de scraping web : les écouteurs se font scrapper
  1. Le reste des images de la page de résultats de recherche deviendra alors jaune. Cliquez sur la deuxième image pour sélectionner toutes les images de la page. Elles deviendront toutes vertes, ce qui signifie qu’elles ont été sélectionnées pour être extraites.
Toutes les images qui vont être scannées sont sélectionnées
toutes les images qui vont être scannées sont sélectionnées.
  1. Puisque ces images servent également de liens vers les pages produits, ParseHub extrait à la fois l’URL de l’image et le lien vers lequel elle pointe (page produit). Par conséquent, nous allons supprimer la sélection d’URL de la barre latérale gauche et ne conserver que la sélection d’images.

supprimer les sélections d’url extraites
  1. Maintenant, ParseHub va gratter chaque URL d’image pour la première page de résultats.

Pagination

Maintenant nous devons dire à ParseHub d’extraire cette même information mais pour les 5 pages suivantes de résultats de recherche.

  1. Cliquez sur le signe PLUS(+) à côté de la sélection de page et utilisez la commande select.
Cliquez sur la fonction select et choisissez le bouton suivant
cliquez sur la fonction select et choisissez le bouton suivant.
  1. Puis cliquez sur le bouton « Suivant » et le bas de la page de résultats de recherche.
  2. Par défaut, ParseHub va extraire le lien du bouton Suivant. Nous allons donc cliquer sur l’icône à côté de la sélection « Next » et supprimer les deux éléments en dessous.
Cliquez ici pour développer et supprimer les deux commandes
Cliquez ici pour développer et supprimer les deux sélections
Delete URL from next button
delete url link from the next button
  1. Nous utiliserons ensuite le signe PLUS(+) à côté de la sélection « next » et utiliserons la commande « click ».
  2. Une fenêtre apparaîtra pour demander si c’est un lien vers la page suivante. Cliquez sur « Oui » et entrez le nombre de fois que vous souhaitez que ce cycle se répète. Pour cet exemple, nous le ferons 5 fois.
Cliquez oui pour traiter la pagination
Cliquez oui lorsqu’on vous demande si c’est un bouton de page suivante pour traiter la pagination.

Scrape et exportation de données

Vient maintenant la partie amusante, nous allons laisser ParseHub s’exécuter et extraire la liste des URL pour chaque image que nous avons sélectionnée.

  1. Cliquez sur le bouton « Obtenir des données » sur la barre latérale gauche.
  2. Ici vous pouvez sélectionner quand exécuter votre scrape. Bien que nous conseillions toujours de tester vos exécutions de scrape avant d’exécuter un scrape complet, nous allons juste exécuter le scrape maintenant pour cet exemple.
Tester, Exécuter, Planifier les options
  1. Maintenant, ParseHub va scrapper les URL d’images que vous avez sélectionnées. Vous pouvez soit attendre sur cet écran, soit quitter ParseHub, vous serez notifié une fois votre scrape terminé. Ce processus a pris moins d’une minute dans ce cas.
  2. Une fois que vos données sont prêtes à être téléchargées, cliquez sur le bouton CSV/Excel. Vous pouvez maintenant enregistrer et renommer votre fichier.

Télécharger des images sur votre appareil

Maintenant que nous avons une liste de toutes les URL pour chaque image, nous allons aller de l’avant et les télécharger sur notre appareil avec un outil simple.

Pour cela, nous allons utiliser l’extension chrome Tab Save.

Une fois installée sur votre navigateur, ouvrez l’extension en cliquant sur son icône. Cela ouvrira l’extension, puis cliquez sur le bouton d’édition en bas à gauche pour entrer les URL que nous venons d’extraire.

Lorsque vous cliquez sur l’icône de téléchargement en bas à droite des fenêtres de l’extension, toutes les images seront automatiquement téléchargées sur votre appareil. Cela peut prendre quelques secondes en fonction du nombre d’images que vous téléchargez.

Appuyer sur le bouton de téléchargement

Pensées finales

En suivant chaque étape de ce guide, vous vous retrouverez avec un dossier de toutes les images que vous aviez besoin de télécharger. Dans ce cas, nous avons téléchargé plus de 330 images d’Amazon en moins de 5 minutes.

bureau de toutes les images grattées

Maintenant, si vous voulez bien m’excuser, je dois aller supprimer toutes ces images de mon disque dur.

Téléchargez gratuitement ParseHub aujourd’hui

Vous pourriez également être intéressé par la lecture d’autres guides pratiques :

  • Comment utiliser un outil d’extraction de données pour gratter AutoTrader
  • Crapage de données Rakuten
  • Comment gratter les données de produits Amazon : Noms, prix, ASIN, etc

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.