Descargar muchas imágenes de un sitio web puede llevar bastante tiempo.
Hacer clic con el botón derecho del ratón, Guardar imagen como…, repetir hasta la saciedad.
En estos casos, el raspado web es la solución a tu problema. En este tutorial, repasaremos cómo extraer la URL de cada imagen de una página web utilizando un raspador web gratuito.
También repasaremos cómo utilizar esta lista extraída para descargar rápidamente todas las imágenes en tu ordenador.
Siéntete libre de hacer clic en cualquiera de los enlaces para saltar a una determinada parte de la guía de cómo
ParseHub y Web Scraping
Para completar esta sencilla tarea, necesitarás un raspador web que pueda recoger las URLs en cuestión. ParseHub es un raspador web gratuito e increíblemente potente, el candidato perfecto para esta tarea.
Asegúrate de descargar e instalar ParseHub antes de empezar.
Recolección de URLs de imágenes
Para este ejemplo, supondremos que estamos interesados en descargar todas las imágenes de las 5 primeras páginas de resultados en Amazon.ca para «auriculares inalámbricos». Esta información podría ser increíblemente valiosa para el análisis de la competencia.
Cómo empezar
- Después de descargar ParseHub, asegúrate de que lo tienes instalado y funcionando en tu ordenador.
- Consigue la URL específica de la página que vamos a raspar.
Crear un proyecto
- En ParseHub, haz clic en «Nuevo proyecto» e introduce la URL de la web de Amazon que vamos a raspar.
- La página web se renderizará ahora en ParseHub y podrás elegir las imágenes que quieres raspar.
Selecciona las imágenes a raspar
- Comienza seleccionando la primera imagen de los resultados de la búsqueda. Se pondrá de color verde, lo que significa que ha sido seleccionada para ser raspada.
- El resto de las imágenes en la página de resultados de la búsqueda se pondrá de color amarillo. Haga clic en la segunda imagen para seleccionar todas las imágenes de la página. Todas se volverán verdes, lo que significa que han sido seleccionadas para ser extraídas.
- Dado que estas imágenes también actúan como enlaces a las páginas de producto, ParseHub está extrayendo tanto la URL de la imagen como el enlace al que apunta (página de producto). Como resultado, eliminaremos la selección de la URL de la barra lateral izquierda y sólo mantendremos la selección de la imagen.
- Ahora ParseHub raspará cada URL de imagen para la primera página de resultados.
Paginación
Ahora tenemos que decirle a ParseHub que extraiga esta misma información pero para las siguientes 5 páginas de resultados de búsqueda.
- Haga clic en el signo MÁS(+) junto a la selección de la página y utilice el comando de selección.
- A continuación, haga clic en el botón «Siguiente» y la parte inferior de la página de resultados de búsqueda.
- Por defecto, ParseHub extraerá el enlace del botón Siguiente. Así que vamos a hacer clic en el icono junto a la selección «Siguiente» y eliminar los dos elementos debajo de ella.
- A continuación, utilizaremos el signo MÁS(+) junto a la selección «siguiente» y utilizaremos el comando «clic».
- Se abrirá una ventana preguntando si se trata de un enlace de Página siguiente. Haz clic en «Sí» e introduce el número de veces que quieres que se repita este ciclo. Para este ejemplo, lo haremos 5 veces.
Scrape y exportación de datos
Ahora viene la parte divertida, dejaremos que ParseHub ejecute y extraiga la lista de URLs de cada imagen que hayamos seleccionado.
- Haz clic en el botón «Obtener datos» de la barra lateral izquierda.
- Aquí puedes seleccionar cuándo ejecutar tu scrape. Aunque siempre aconsejamos probar sus ejecuciones de scrape antes de ejecutar un scrape completo, sólo ejecutaremos el scrape ahora mismo para este ejemplo.
- Ahora ParseHub raspará las URL de las imágenes que ha seleccionado. Puedes esperar en esta pantalla o salir de ParseHub, serás notificado una vez que el scrape esté completo. Este proceso tomó menos de 1 minuto en este caso.
- Una vez que sus datos están listos para descargar, haga clic en el botón CSV/Excel. Ahora puede guardar y renombrar su archivo.
Descarga de imágenes a tu dispositivo
Ahora que tenemos una lista de todas las URLs de cada imagen, vamos a seguir adelante y descargarlas a nuestro dispositivo con una simple herramienta.
Para ello, utilizaremos la extensión de chrome Tab Save.
Una vez instalada en tu navegador, abre la extensión haciendo clic en su icono. Esto abrirá la extensión, a continuación, haga clic en el botón de edición en la parte inferior izquierda para introducir las direcciones URL que acabamos de extraer.
Al hacer clic en el icono de descarga en la parte inferior derecha de las ventanas de la extensión, todas las imágenes se descargarán automáticamente en su dispositivo. Esto puede tardar un par de segundos dependiendo de la cantidad de imágenes que estés descargando.
Pensamientos finales
Siguiendo cada uno de los pasos de esta guía, terminarás con una carpeta con todas las imágenes que necesitabas descargar. En este caso, hemos descargado más de 330 imágenes de Amazon en menos de 5 minutos.
Ahora, si me disculpas, tengo que ir a borrar todas estas imágenes de mi disco duro.
Descarga ParseHub gratis hoy
También te puede interesar leer otras guías de cómo hacerlo:
- Cómo usar una herramienta de extracción de datos para scrapear AutoTrader
- Scraping Rakuten Data
- Cómo scrapear datos de productos de Amazon: Nombres, precios, ASIN, etc