Pythonによるスクレイビングの方法(Scrapy)

初投稿です。最近Python、開発環境インストールからスクレイピングするまで実行できたので簡単な手順を参考に記載します。かなりざっくりです汗。詳細は別サイトご参考ください。別サイトでは長々と説明がありますが、基本これだけで可能でした。抜け漏れありそうで不安。スクレイピングの際は対象サイトの利用規約などを要確認です。スクレイピングOKと名乗るサイトもあります。

  1. VS Codeのインストール

  2. Pythonのインストール

  3. Scrapyモジュールのインストール

  4. 環境設定1(Scrapyのパス入手)

    1. 方法1

      1. VS Codeのターミナル上で”py”でEnter

      2. 対話モードで”import scrapy”Enter

      3. 対話モードで”print(scrapy.file)”Enter

      4. cで出力されたパス名をコピー

      5. exit()でEnter対話モード終了

    2. 方法2

      1. Windows上でScrapyのフォルダーを探す

      2. Scrapyフォルダー内の__initial__.pyを探す

      3. パス名をコピー

  5. 環境設定2(VS Code設定)

    1. VS Code上の左下のSetting画面を開く

    2. 検索に”Extra Path”でEnter

    3. Add item(項目の追加)でコピーしたパスを入力(但しパス両端の””は省く)

  6. Scrapyのプログラム作成と実行

    1. プロジェクトの作成

    2. スパイダーファイルの作成

      1. パースの関数内に下記3か所を入力①items内の関数インポート、②xpath、③返り値yield(ターミナルに出力されます)(yield)

    3. Itemファイルのセレクタオブジェクトの定義

    4. Seetingファイルの作成(クロールの設定)

      1. settingファイル内で下記3か所入力あるいはコメントイン

        1. ROBOTSTXT_OBEY = True(違反行為防止)

        2. DOWNLOAD_DELAY = 3(ダウンロード負荷軽減)

        3. FEED_EXPORT_ENCODING = "utf-8”(入手情報可視化)(デフォルトかもしれません)

    5. スパイダーの実行

      1. ターミナルに”cd <プロジェクト場所>”で作成したプロジェクトフォルダーに移動

      2. ターミナルに”scrapy crawl scrapingwork”でEnter

      3. 結果を待つ。サイトの情報がターミナルに表示されたらOK。(流れが分かればあとはfor文で連続サイト入手やxPath、CSSの勉強だと思ってます)

いいなと思ったら応援しよう!