Stažení velkého množství obrázků z webové stránky může být poměrně časově náročné.
Klikněte pravým tlačítkem myši, Uložit obrázek jako…, opakujte ad nauseam.
V těchto případech je řešením vašeho problému seškrábání webu. V tomto tutoriálu si projdeme, jak pomocí bezplatného web scraperu extrahovat adresu URL každého obrázku na webové stránce.
Proběhneme také, jak tento extrahovaný seznam použít k rychlému stažení všech obrázků do počítače.
Neváhejte kliknout na některý z odkazů a přejít na určitou část návodu, jak na to
ParseHub a škrabání webu
Pro splnění tohoto jednoduchého úkolu budete potřebovat webový škrabák, který umí shromažďovat dané adresy URL. ParseHub je bezplatný a neuvěřitelně výkonný webový škrabák, který je pro tento úkol ideálním kandidátem.
Než začnete, nezapomeňte si stáhnout a nainstalovat ParseHub.
Škrabání URL adres obrázků
Pro tento příklad budeme předpokládat, že máme zájem stáhnout všechny obrázky pro prvních 5 stránek výsledků na Amazon.ca pro „wireless earbuds“. Tyto informace mohou být potenciálně nesmírně cenné pro analýzu konkurence.
Začínáme
- Po stažení aplikace ParseHub se ujistěte, že ji máte v počítači spuštěnou.
- Získejte konkrétní adresu URL stránky, kterou budeme scrapovat.
Vytvoření projektu
- V aplikaci ParseHub klikněte na „Nový projekt“ a zadejte adresu URL z webové stránky Amazon, kterou budeme scrapovat.
- Ve službě ParseHub se nyní vykreslí webová stránka a vy budete moci vybrat obrázky, které chcete seškrábat.
Výběr obrázků ke škrábání
- Začněte výběrem prvního obrázku z výsledků vyhledávání. Ten pak změní barvu na zelenou, což znamená, že byl vybrán ke škrábání.
- Zbytek obrázků na stránce s výsledky vyhledávání pak změní barvu na žlutou. Kliknutím na druhý obrázek vyberete všechny obrázky na stránce. Všechny změní barvu na zelenou, což znamená, že byly vybrány k vyjmutí.
- Protože tyto obrázky fungují také jako odkazy na stránky produktu, ParseHub extrahuje jak adresu URL obrázku, tak odkaz, na který ukazuje (stránka produktu). V důsledku toho odstraníme výběr URL z levého postranního panelu a ponecháme pouze výběr obrázku.
- Nyní bude ParseHub vyškrabávat každou URL obrázku pro první stránku výsledků.
Výběr stránky
Nyní musíme říct ParseHubu, aby extrahoval stejné informace, ale pro dalších 5 stránek výsledků vyhledávání.
- Klikněte na znak PLUS(+) vedle výběru stránky a použijte příkaz select.
- Poté klikněte na tlačítko „Další“ a spodní část stránky s výsledky hledání.
- Ve výchozím nastavení ParseHub vyextrahuje odkaz z tlačítka Další. Klikneme tedy na ikonu vedle výběru „Další“ a odstraníme dvě položky pod ním.
- Poté použijeme znak PLUS(+) vedle výběru „Další“ a použijeme příkaz „kliknout“.
- Vyskočí okno s dotazem, zda se jedná o odkaz na další stránku. Klikněte na „Ano“ a zadejte počet opakování tohoto cyklu. Pro tento příklad to uděláme pětkrát.
Scrape a export dat
Teď přijde ta zábavná část, necháme ParseHub spustit a extrahovat seznam URL pro každý vybraný obrázek.
- Klikněte na tlačítko „Get Data“ na levém postranním panelu.
- Tady můžete vybrat, kdy se má scrape spustit. Ačkoli vždy doporučujeme před spuštěním plného scrapu otestovat jeho průběh, pro tento příklad scrape spustíme právě teď.
- Nyní bude ParseHub scrapovat vámi vybrané adresy URL obrázků. Na této obrazovce můžete buď počkat, nebo opustit ParseHub, jakmile bude scrape dokončen, budete o tom informováni. Tento proces trval v tomto případě méně než 1 minutu.
- Jakmile jsou vaše data připravena ke stažení, klikněte na tlačítko CSV/Excel. Nyní můžete soubor uložit a přejmenovat.
Stažení obrázků do zařízení
Teď, když máme seznam všech adres URL pro každý obrázek, budeme pokračovat a stáhneme je do našeho zařízení pomocí jednoho jednoduchého nástroje.
Pro tento účel použijeme rozšíření Tab Save chrome.
Po instalaci do prohlížeče otevřete rozšíření kliknutím na jeho ikonu. Tím se rozšíření otevře a poté kliknutím na tlačítko úprav vlevo dole zadejte adresy URL, které jsme právě extrahovali.
Když kliknete na ikonu stahování v pravém dolním rohu oken rozšíření, všechny obrázky se automaticky stáhnou do vašeho zařízení. To může trvat několik sekund v závislosti na tom, kolik obrázků stahujete.
Závěrečné myšlenky
Pokračováním v každém kroku tohoto návodu skončíte se složkou všech obrázků, které jste potřebovali stáhnout. V tomto případě jsme z Amazonu stáhli více než 330 obrázků za méně než 5 minut.
Nyní mě omluvte, musím jít a odstranit všechny tyto obrázky z pevného disku.
Stáhněte si ParseHub zdarma ještě dnes
Možná vás budou zajímat i další návody:
- Jak použít nástroj pro extrakci dat ke škrábání AutoTrader
- Škrábání dat Rakuten
- Jak škrábat data o produktech Amazon: Jak: názvy, ceny, ASIN atd