How to Scrape and Download Images from any Website

Download lots of images from a website can be quite time-onsuming.

右クリック、名前を付けて画像を保存…、アドナイムを繰り返し、

これらの場合、Web スクラッピングが問題の解決に役立ちます。 このチュートリアルでは、無料の Web スクレイパーを使用して、Web ページ上のすべての画像の URL を抽出する方法について説明します。

How to Guide の特定の部分にジャンプするリンクを自由にクリックしてください。

ParseHub と Web スクレイピング

この単純なタスクを完了するには、問題の URL を収集できる Web スクレイパーが必要です。

始める前に、ParseHub をダウンロードしてインストールすることを確認してください。

Scraping Image URLs

この例では、Amazon.ca で「ワイヤレス イヤホン」と検索した最初の 5 ページのすべての画像をダウンロードすることに興味があると仮定します。

Getting Started

  1. ParseHub をダウンロードしたら、コンピュータ上で起動していることを確認します。
  2. スクレイピングするページの具体的なURLを取得します。

プロジェクトの作成

  1. ParseHubで「新規プロジェクト」をクリックして、スクレイピングするAmazonのWebサイトのURLを入力します。
  2. これでWebページがParseHubでレンダリングされ、スクレイピングする画像を選択できるようになります。
Using ParseHub to scrape and download images on any site, using amazon for example
Using ParseHub to scrape and download images on any site, using amazon for example

Select Images to Scrape

  1. 検索結果から最初の画像を選択することから始めてください。
web scraping images
web scraping images: earphones are getting scraped
  1. 次に検索結果ページの残りの画像は黄色に変わります。 2 番目の画像をクリックすると、ページ内のすべての画像が選択されます。 これらはすべて緑色に変わり、抽出するために選択されたことを意味します。
All imgaes that are getting scraped are selcted
all images that are going to get scraped are selected.これは、抽出されるすべてのイメージが選択されたことを意味します。
  1. これらの画像は製品ページへのリンクとしても機能するため、ParseHubは画像のURLとそれが指すリンク(製品ページ)の両方を抽出しています。 その結果、左サイドバーからURLの選択を削除し、画像の選択のみを残すことにします。
delete extracted url selections
  1. ここでParseHubは結果の最初のページのすべての画像URLをスクレイピングすることにします。

ページ分割

次に、これと同じ情報を、検索結果の次の5ページについて抽出するようParseHubに指示する必要があります。

  1. ページ選択の隣にあるプラス(+)記号をクリックし、選択コマンドを使ってください。
選択機能および次のボタンを選択
選択機能および次のボタンを選択クリックしください。
  1. 次に「次へ」ボタンと検索結果ページの下部をクリックします。
  2. デフォルトでは、ParseHubは「次へ」ボタンからリンクを抽出します。 そこで、「Next」選択の横にあるアイコンをクリックし、その下にある2つの項目を削除します。
Click here to expand and delete both commands
Click here to expand and delete both selections
Delete URL from next button
delete url link from the next button
  1. 次に、”次” 選択項目の隣のプラス(+)記号を使って “click” コマンドを使用することにします。
  2. これが「次のページ」リンクかどうかを尋ねるウィンドウがポップアップします。 はい」をクリックし、このサイクルを何回繰り返すかを入力します。 この例では、5回行います。
Click yes to deal with pagination
This if a next page button to deal with pagination聞かれたら、「はい」をクリックする。

Scrape and Export Data

Now comes the fun part, we let ParseHub run and extract the list of URL for every image we have selected.

  1. 左サイドバーの “Get Data” ボタンをクリックします。
  2. ここで、スクレイピングを実行するタイミングを選択できます。常にフルスクレイピングを実行する前にスクレイピングの実行をテストすることをお勧めしますが、この例では、今すぐスクレイピングを実行します。 この画面で待機するか、ParseHubを退出すると、スクレイピングが完了したときに通知が届きます。
  3. データをダウンロードする準備ができたら、CSV/Excel ボタンをクリックします。 これで、保存とファイル名の変更ができます。

デバイスに画像をダウンロードする

すべての画像の URL のリストができたので、先に進み、簡単なツールを使ってデバイスにダウンロードします。

このために、Tab Save chrome 拡張機能を使います。

ブラウザにインストールしたら、そのアイコンをクリックし、拡張機能を開きます。 これにより、拡張機能が開き、左下の編集ボタンをクリックして、先ほど抽出した URL を入力します。

拡張機能ウィンドウの右下にあるダウンロード アイコンをクリックすると、すべての画像が自動的にデバイスにダウンロードされます。 ダウンロードする画像の数によっては、数秒かかるかもしれません。

 ダウンロード ボタンを押す

最後に思うこと

このガイドのすべてのステップに従うと、ダウンロードに必要なすべての画像のフォルダが作成されることになります。 このケースでは、5 分以内に Amazon から 330 以上の画像をダウンロードしました。

desktop of all scraped images

さて、失礼して、ハード ドライブからこれらの画像をすべて削除してこなければなりませんね。

今すぐParseHubを無料でダウンロードする

他のHow toガイドもご覧ください:

  • How to use a data extraction tool to scrape AutoTrader
  • Scrapeing Rakuten Data
  • How to Scrape Amazon Product Data: 名前、価格設定、ASIN など

コメントを残す

メールアドレスが公開されることはありません。