Jak seškrábat a stáhnout obrázky z libovolné webové stránky

Stažení velkého množství obrázků z webové stránky může být poměrně časově náročné.

Klikněte pravým tlačítkem myši, Uložit obrázek jako…, opakujte ad nauseam.

V těchto případech je řešením vašeho problému seškrábání webu. V tomto tutoriálu si projdeme, jak pomocí bezplatného web scraperu extrahovat adresu URL každého obrázku na webové stránce.

Proběhneme také, jak tento extrahovaný seznam použít k rychlému stažení všech obrázků do počítače.

Neváhejte kliknout na některý z odkazů a přejít na určitou část návodu, jak na to

ParseHub a škrabání webu

Pro splnění tohoto jednoduchého úkolu budete potřebovat webový škrabák, který umí shromažďovat dané adresy URL. ParseHub je bezplatný a neuvěřitelně výkonný webový škrabák, který je pro tento úkol ideálním kandidátem.

Než začnete, nezapomeňte si stáhnout a nainstalovat ParseHub.

Škrabání URL adres obrázků

Pro tento příklad budeme předpokládat, že máme zájem stáhnout všechny obrázky pro prvních 5 stránek výsledků na Amazon.ca pro „wireless earbuds“. Tyto informace mohou být potenciálně nesmírně cenné pro analýzu konkurence.

Začínáme

  1. Po stažení aplikace ParseHub se ujistěte, že ji máte v počítači spuštěnou.
  2. Získejte konkrétní adresu URL stránky, kterou budeme scrapovat.

Vytvoření projektu

  1. V aplikaci ParseHub klikněte na „Nový projekt“ a zadejte adresu URL z webové stránky Amazon, kterou budeme scrapovat.
  2. Ve službě ParseHub se nyní vykreslí webová stránka a vy budete moci vybrat obrázky, které chcete seškrábat.
Použití služby ParseHub ke škrábání a stahování obrázků na libovolné stránce, například pomocí amazonu
Použití služby ParseHub ke škrábání a stahování obrázků na libovolné stránce, například pomocí amazonu

Výběr obrázků ke škrábání

  1. Začněte výběrem prvního obrázku z výsledků vyhledávání. Ten pak změní barvu na zelenou, což znamená, že byl vybrán ke škrábání.
web scraping images
web scraping images: earphones are getting scraped
  1. Zbytek obrázků na stránce s výsledky vyhledávání pak změní barvu na žlutou. Kliknutím na druhý obrázek vyberete všechny obrázky na stránce. Všechny změní barvu na zelenou, což znamená, že byly vybrány k vyjmutí.
Všechny obrázky, které se budou škrábat, jsou vybrány
Všechny obrázky, které se budou škrábat, jsou vybrány.
  1. Protože tyto obrázky fungují také jako odkazy na stránky produktu, ParseHub extrahuje jak adresu URL obrázku, tak odkaz, na který ukazuje (stránka produktu). V důsledku toho odstraníme výběr URL z levého postranního panelu a ponecháme pouze výběr obrázku.
odstraníme extrahované výběry url
  1. Nyní bude ParseHub vyškrabávat každou URL obrázku pro první stránku výsledků.

Výběr stránky

Nyní musíme říct ParseHubu, aby extrahoval stejné informace, ale pro dalších 5 stránek výsledků vyhledávání.

  1. Klikněte na znak PLUS(+) vedle výběru stránky a použijte příkaz select.
Klikněte na funkci select a vyberte další tlačítko
klikněte na funkci select a vyberte další tlačítko.
  1. Poté klikněte na tlačítko „Další“ a spodní část stránky s výsledky hledání.
  2. Ve výchozím nastavení ParseHub vyextrahuje odkaz z tlačítka Další. Klikneme tedy na ikonu vedle výběru „Další“ a odstraníme dvě položky pod ním.
Kliknutím sem rozbalíme a odstraníme oba příkazy
Kliknutím sem rozbalíme a odstraníme oba výběry
Odstranit URL z dalšího tlačítka
odstranit url odkaz z dalšího tlačítka
  1. Poté použijeme znak PLUS(+) vedle výběru „Další“ a použijeme příkaz „kliknout“.
  2. Vyskočí okno s dotazem, zda se jedná o odkaz na další stránku. Klikněte na „Ano“ a zadejte počet opakování tohoto cyklu. Pro tento příklad to uděláme pětkrát.
Klikněte na ano, aby se řešilo stránkování
Klikněte na ano na dotaz, zda se jedná o tlačítko další stránky, aby se řešilo stránkování.

Scrape a export dat

Teď přijde ta zábavná část, necháme ParseHub spustit a extrahovat seznam URL pro každý vybraný obrázek.

  1. Klikněte na tlačítko „Get Data“ na levém postranním panelu.
  2. Tady můžete vybrat, kdy se má scrape spustit. Ačkoli vždy doporučujeme před spuštěním plného scrapu otestovat jeho průběh, pro tento příklad scrape spustíme právě teď.
Možnosti Test, Spustit, Naplánovat
  1. Nyní bude ParseHub scrapovat vámi vybrané adresy URL obrázků. Na této obrazovce můžete buď počkat, nebo opustit ParseHub, jakmile bude scrape dokončen, budete o tom informováni. Tento proces trval v tomto případě méně než 1 minutu.
  2. Jakmile jsou vaše data připravena ke stažení, klikněte na tlačítko CSV/Excel. Nyní můžete soubor uložit a přejmenovat.

Stažení obrázků do zařízení

Teď, když máme seznam všech adres URL pro každý obrázek, budeme pokračovat a stáhneme je do našeho zařízení pomocí jednoho jednoduchého nástroje.

Pro tento účel použijeme rozšíření Tab Save chrome.

Po instalaci do prohlížeče otevřete rozšíření kliknutím na jeho ikonu. Tím se rozšíření otevře a poté kliknutím na tlačítko úprav vlevo dole zadejte adresy URL, které jsme právě extrahovali.

Když kliknete na ikonu stahování v pravém dolním rohu oken rozšíření, všechny obrázky se automaticky stáhnou do vašeho zařízení. To může trvat několik sekund v závislosti na tom, kolik obrázků stahujete.

Stisknutí tlačítka Stáhnout

Závěrečné myšlenky

Pokračováním v každém kroku tohoto návodu skončíte se složkou všech obrázků, které jste potřebovali stáhnout. V tomto případě jsme z Amazonu stáhli více než 330 obrázků za méně než 5 minut.

plocha všech vyškrábaných obrázků

Nyní mě omluvte, musím jít a odstranit všechny tyto obrázky z pevného disku.

Stáhněte si ParseHub zdarma ještě dnes

Možná vás budou zajímat i další návody:

  • Jak použít nástroj pro extrakci dat ke škrábání AutoTrader
  • Škrábání dat Rakuten
  • Jak škrábat data o produktech Amazon: Jak: názvy, ceny, ASIN atd

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.