Jak skrobać i pobierać obrazy z dowolnej strony internetowej

Pobieranie dużej ilości obrazów ze strony internetowej może być dość czasochłonne.

Kliknij prawym przyciskiem myszy, Zapisz obraz jako…, powtarzaj ad nauseam.

W tych przypadkach, skrobanie stron internetowych jest rozwiązaniem twojego problemu. W tym poradniku, przejdziemy do tego jak wyodrębnić adres URL dla każdego obrazu na stronie internetowej używając darmowego web scrapera.

Przejdziemy również do tego jak użyć tej wyodrębnionej listy aby szybko pobrać wszystkie obrazy na swój komputer.

Nie krępuj się kliknąć na którykolwiek z linków, aby przejść do określonej części przewodnika

ParseHub i Web Scraping

Aby wykonać to proste zadanie, będziesz potrzebował web scrapera, który może zbierać adresy URL, o których mowa. ParseHub jest darmowym i niesamowicie potężnym web scraperem, idealnym kandydatem do tego zadania.

Pewnie pobierz i zainstaluj ParseHub przed rozpoczęciem pracy.

Scraping adresów URL obrazów

Dla tego przykładu, założymy, że jesteśmy zainteresowani pobraniem każdego obrazu z pierwszych 5 stron wyników na Amazon.ca dla „bezprzewodowych wkładek dousznych”. Ta informacja może być potencjalnie bardzo cenna dla analizy konkurencji.

Rozpoczynanie

  1. Po pobraniu ParseHub, upewnij się, że masz go uruchomionego na swoim komputerze.
  2. Wybierz konkretny adres URL strony, którą będziemy skrobać.

Tworzenie projektu

  1. W ParseHub, kliknij na „Nowy projekt” i wprowadź adres URL strony Amazon, którą będziemy skrobać.
  2. Strona internetowa będzie teraz renderowana w ParseHub i będziesz mógł wybrać obrazy, które chcesz zeskrobać.
Używanie ParseHub do skrobania i pobierania obrazów na dowolnej stronie, na przykładzie amazon
Używanie ParseHub do skrobania i pobierania obrazów na dowolnej stronie, na przykładzie amazon

Wybieranie obrazów do skrobania

  1. Zacznij od wybrania pierwszego obrazu z wyników wyszukiwania. Następnie zmieni on kolor na zielony, co oznacza, że został wybrany do zeskrobania.
web scraping images
web scraping images: earphones are getting scraped
  1. Reszta obrazów na stronie wyników wyszukiwania zmieni kolor na żółty. Kliknij na drugi obrazek, aby wybrać wszystkie obrazki na stronie. Wszystkie zmienią kolor na zielony, co oznacza, że zostały wybrane do wyodrębnienia.
Wszystkie obrazy, które są wyodrębniane są zaznaczone
Wszystkie obrazy, które będą wyodrębniane są zaznaczone.
  1. Ponieważ te obrazy działają również jako linki do stron produktów, ParseHub wyodrębnia zarówno adres URL obrazu jak i link, na który wskazuje (strona produktu). W rezultacie usuniemy selekcję URL z lewego paska bocznego i zachowamy tylko selekcję obrazów.
delete extracted url selections
  1. Teraz ParseHub będzie skrobał każdy URL obrazu dla pierwszej strony wyników.

Paginacja

Teraz musimy powiedzieć ParseHub, aby wyodrębnił te same informacje, ale dla kolejnych 5 stron wyników wyszukiwania.

  1. Kliknij na znak PLUS(+) obok wyboru strony i użyj polecenia select.
kliknij na funkcję select i wybierz następny przycisk
kliknij na funkcję select i wybierz następny przycisk.
  1. Potem klikamy na przycisk „Next” i na dole strony z wynikami wyszukiwania.
  2. Domyślnie ParseHub wyodrębnia link z przycisku Next. Klikamy więc na ikonę obok zaznaczenia „Next” i usuwamy dwa elementy znajdujące się pod nim.
kliknij tutaj, aby rozwinąć i usunąć oba polecenia
kliknij tutaj, aby rozwinąć i usunąć oba zaznaczenia
usuń URL z następnego przycisku
usuń link url z następnego przycisku
  1. Wtedy użyjemy znaku PLUS(+) obok zaznaczenia „Następny” i użyjemy polecenia „kliknij”.
  2. Wystąpi okno z pytaniem, czy jest to link Następna strona. Kliknij „Tak” i wpisz liczbę powtórzeń tego cyklu. Dla tego przykładu, zrobimy to 5 razy.
Kliknij tak, aby poradzić sobie z paginacją
Kliknij tak, gdy pojawi się pytanie, czy jest to przycisk następnej strony, aby poradzić sobie z paginacją.

Skrobanie i eksport danych

Teraz nadchodzi część zabawy, pozwolimy ParseHubowi uruchomić i wyodrębnić listę adresów URL dla każdego obrazu, który wybraliśmy.

  1. Kliknij na przycisk „Pobierz dane” na lewym pasku bocznym.
  2. Tutaj możesz wybrać, kiedy uruchomić skrobanie. Chociaż zawsze zalecamy przetestowanie działania scrape’u przed uruchomieniem pełnego scrape’u, po prostu uruchomimy scrape teraz dla tego przykładu.
Testuj, Uruchom, Opcje harmonogramu
  1. Teraz ParseHub będzie skrobał adresy URL obrazów, które wybrałeś. Możesz czekać na tym ekranie lub opuścić ParseHub, zostaniesz powiadomiony po zakończeniu skrobania. Ten proces trwał mniej niż 1 minutę w tym przypadku.
  2. Gdy twoje dane są gotowe do pobrania, kliknij przycisk CSV/Excel. Teraz możesz zapisać i zmienić nazwę swojego pliku.

Pobieranie obrazów na urządzenie

Teraz, gdy mamy listę wszystkich adresów URL dla każdego obrazu, pójdziemy dalej i pobierzemy je na nasze urządzenie za pomocą jednego prostego narzędzia.

W tym celu użyjemy rozszerzenia Tab Save chrome.

Po zainstalowaniu w przeglądarce, otwórz rozszerzenie klikając na jego ikonę. To otworzy rozszerzenie, a następnie kliknij na przycisk edycji w lewym dolnym rogu, aby wprowadzić adresy URL, które właśnie wyodrębniliśmy.

Po kliknięciu na ikonę pobierania w prawym dolnym rogu okna rozszerzenia, wszystkie obrazy zostaną automatycznie pobrane na urządzenie. Może to potrwać kilka sekund w zależności od ilości pobieranych obrazów.

Naciskanie przycisku pobierania

Pomysły końcowe

Postępując zgodnie z każdym krokiem w tym przewodniku, skończysz z folderem wszystkich obrazów, które musiałeś pobrać. W tym przypadku, pobraliśmy ponad 330 obrazów z Amazon w mniej niż 5 minut.

Tablica wszystkich zeskrobanych obrazów

Teraz, jeśli mi wybaczysz, muszę iść i usunąć wszystkie te obrazy z mojego dysku twardego.

Download ParseHub for Free today

Możesz być również zainteresowany czytaniem innych przewodników:

  • Jak używać narzędzia do ekstrakcji danych do skrobania AutoTrader
  • Scraping Rakuten Data
  • Jak skrobać dane produktów Amazon: Nazwy, ceny, ASIN, itp

Jak zeskrobać dane o produktach Amazon?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.