How to Scrape and Download Images from any Website

Egy weboldalról sok kép letöltése elég időigényes lehet.

Jobb klikk, Save Image As…, repeat ad nauseam.

Egy ilyen esetben a web scraping a megoldás a problémára. Ebben a bemutatóban átnézzük, hogyan lehet egy ingyenes webkaparóval kinyerni egy weboldalon található minden kép URL-címét.

Azt is átnézzük, hogyan használhatjuk ezt a kinyert listát az összes kép gyors letöltésére a számítógépünkre.

Bátran kattints bármelyik linkre, hogy az útmutató egy adott részére ugorj

ParseHub és webkaparás

Az egyszerű feladat elvégzéséhez szükséged lesz egy olyan webkaparóra, amely képes összegyűjteni a kérdéses URL-eket. A ParseHub egy ingyenes és hihetetlenül hatékony webkaparó, amely tökéletes jelölt erre a feladatra.

Elkezdés előtt mindenképpen töltse le és telepítse a ParseHubot.

Kép URL-ek kaparása

Ebben a példában feltételezzük, hogy az Amazon.ca oldalon a “wireless earbuds” keresőszóra adott találatok első 5 oldalának minden képét szeretnénk letölteni. Ez az információ potenciálisan hihetetlenül értékes lehet a versenytársak elemzése szempontjából.

Kezdés

  1. A ParseHub letöltése után győződjön meg róla, hogy a ParseHub telepítve van és fut a számítógépén.
  2. Kérdezze meg annak az oldalnak a konkrét URL-címét, amelyet le fogunk kaparni.

Projekt létrehozása

  1. A ParseHubban kattintson az “Új projekt” gombra, és adja meg az Amazon weboldalának URL-címét, amelyet le fogunk kaparni.
  2. A weboldal most megjelenik a ParseHubban, és kiválaszthatjuk a lekaparni kívánt képeket.
A ParseHub segítségével bármely webhely képeit lekaparhatjuk és letölthetjük, az amazon példáján
A ParseHub segítségével bármely webhely képeit lekaparhatjuk és letölthetjük, az amazon példáján

A lekaparandó képek kiválasztása

  1. A keresési eredmények közül az első kép kiválasztásával kezdjük. Ezután zöldre változik, ami azt jelenti, hogy ki lett választva a scrapelésre.
web scraping images
web scraping images: earphones are getting scraped
  1. A többi kép a keresési találati oldalon ezután sárgára változik. Kattintson a második képre az oldalon található összes kép kiválasztásához. Mindegyik zöld színűvé válik, ami azt jelenti, hogy kiválasztásra kerültek.
All imgaes that are getting scraped are selcted
all images that are going to get scraped are selected.
  1. Mivel ezek a képek a termékoldalakra mutató linkként is működnek, a ParseHub mind a kép URL-jét, mind a linket, amelyre mutat (termékoldal), kinyeri. Ennek eredményeképpen töröljük az URL-kiválasztást a bal oldalsávból, és csak a képkiválasztást tartjuk meg.
kivont url-kiválasztások törlése
  1. Most a ParseHub minden kép URL-jét lekaparja a találatok első oldalán.

Kivonatolás

Most meg kell mondanunk a ParseHubnak, hogy ugyanezt az információt kivonatolja, de a keresési eredmények következő 5 oldalára vonatkozóan.

  1. Kattintsunk az oldal kiválasztása melletti PLUS(+) jelre és használjuk a select parancsot.
Kattintsunk a select funkcióra és válasszuk a következő gombot
kattintsunk a select funkcióra és válasszuk a következő gombot.
  1. Ezután kattintson a “Tovább” gombra és a keresési találati oldal aljára.
  2. A ParseHub alapértelmezés szerint kivonja a linket a Tovább gombból. Kattintsunk tehát a “Következő” kiválasztás melletti ikonra, és távolítsuk el az alatta lévő két elemet.
Kattints ide mindkét parancs kibontásához és törléséhez
Kattints ide mindkét kiválasztás kibontásához és törléséhez
 URL törlése a következő gombról
url link törlése a következő gombról
  1. Ezután a “következő” kiválasztás melletti PLUS(+) jelet használjuk és a “kattintás” parancsot használjuk.
  2. Egy ablak fog felugrani, amely megkérdezi, hogy ez egy következő oldal link. Kattintsunk az “Igen” gombra, és adjuk meg, hányszor szeretnénk, hogy ez a ciklus ismétlődjön. Ebben a példában ezt 5 alkalommal fogjuk megtenni.
Kattintson az igen gombra a lapozás kezeléséhez
Kattintson az igen gombra, amikor megkérdezik, hogy ez egy következő oldal gomb-e a lapozás kezeléséhez.

Adatok lekaparása és exportálása

Most jön a mókás rész, hagyjuk, hogy a ParseHub futtassa és kivonatolja az URL-ek listáját minden egyes kiválasztott képhez.

  1. Kattints a “Get Data” gombra a bal oldalsávban.
  2. Itt kiválaszthatod, hogy mikor fusson a lekaparás. Bár mindig azt tanácsoljuk, hogy a teljes scrape futtatása előtt tesztelje a scrape futtatását, ebben a példában most csak futtatjuk a scrape-ot.
Teszt, futtatás, ütemezési opciók
  1. Most a ParseHub lekaparja a kiválasztott kép URL-eket. Várhat ezen a képernyőn, vagy elhagyhatja a ParseHubot, értesítést kap, amint a scrape befejeződött. Ez a folyamat ebben az esetben kevesebb mint 1 percet vett igénybe.
  2. Amikor az adatok készen állnak a letöltésre, kattintson a CSV/Excel gombra. Most már elmentheti és átnevezheti a fájlt.

Képek letöltése a készülékre

Most, hogy minden kép URL-jének listája megvan, továbblépünk, és egy egyszerű eszközzel letöltjük őket a készülékünkre.

Ezért a Tab Save Chrome bővítményt fogjuk használni.

Amint telepítettük a böngészőnkre, nyissuk meg a bővítményt az ikonjára kattintva. Ez megnyitja a bővítményt, majd a bal alsó sarokban található szerkesztés gombra kattintva megadhatjuk az imént kinyert URL-eket.

Amikor a bővítmény ablakainak jobb alsó sarkában található letöltés ikonra kattintunk, az összes kép automatikusan letöltődik a készülékünkre. Ez néhány másodpercig is eltarthat, attól függően, hogy hány képet tölt le.

A letöltés gomb megnyomása

Végső gondolatok

Az útmutató minden lépését követve a végén egy mappában lesz az összes kép, amelyet le kellett töltenie. Ebben az esetben több mint 330 képet töltöttünk le az Amazonról kevesebb mint 5 perc alatt.

mappa az összes lekapart képről

Most, ha megbocsátasz, mennem kell, és törölnöm kell ezeket a képeket a merevlemezemről.

Töltse le a ParseHub-ot ingyen még ma

Az alábbi további útmutatók is érdekelhetik:

  • How to use a data extraction tool to scrape AutoTrader
  • Scraping Rakuten Data
  • How to Scrape Amazon Product Data: Nevek, árképzés, ASIN, stb

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.