見出し画像

【初心者向け】Pythonでスクレイピングする環境を作る① はじめに

Naruhiko です。

スクレイピングって興味ありますか?
自動でネットの記事を取得できると、いろいろな作業効率を格段に上げることができます。
例えば、特定のサイトのタイトル一覧がほしいとか、ある言葉が書いてある文章を取得したいなどですね。
やってみたいと思っているのなら、この記事から読みすすめて実際に手を動かしてみてください。
できたときの感動とこれから自分で作り変える喜びを味わえると思います。

今回やりたいこと

Dockerfile を使って Docker 内で環境を構築し、VSCode を使って Docker 環境の中で Python プログラムを作成していきます。
今回は Python3 用の Dockerイメージを使用し、Docker 内には使用するPythonモジュールをインストールしていきます。

スクレイピングをするためのモジュールはいろいろあります。
・requests
・selenium
・splash
がよく使われますが、
今回は、一番簡単な requests を使ってみます。

最終的に、Google で検索をして出てきた検索結果のサイトの一覧を取得し、そのサイトのタイトルを取得するまで出来るのが目標です。

今回は、スクレイピングをするので、名前を「crawler」としました。

出来るようになること

・Docker の簡単な使い方を理解できる
・VSCode で Docker を使った開発環境を構築できる
・Python3 の簡単なコードがかけるようになる
・requests を使ってサイトからデータを取得出来るようになる

環境

・Debian Buster
・VSCode
・Docker
・Python3(Docker 内)

今回は、主に Linux での作業になります。
Windows でも同じことができますので VSCode と Docker をインストールしてください。

なぜこれを書こうと思ったのか

Python は僕の好きな言語の一つです。
なぜ好きかと言われると、扱いやすいとしか言えないのですが、ひとつだけ上げるとすれば、リストの扱い方だと思います。
とっても簡単でいろいろなリストや辞書を作れるんですよね。
ココらへんはまた集中して記事を書きたいと思っています。

去年から C# 案件ばかりだったんですが、つい2ヶ月くらい前に、本当に久しぶりに Python 案件に参加したんです。しかも Flask でのWebサイト作成。
やっぱり Python は楽しくてしょうがなかったです。
気づいたらなんか自分でもなにか作ってみようかなーって思っていたので、
まずはスクレイピングから説明をしながら作ることにしました。

作業ディレクトリの作成

始める前に、今回の作業ディレクトリを作っておきましょう。

わかりやすいように、ホームディレクトリに「Workspaces」という
ディレクトリを作成し、そこで開発をしていきます。

~$ mkdir ~/Workspaces

このワークディレクトリに Python のプログラムや、Dockerfile を入れていくことになります。

一緒にワークディレクトリに今回作成するプログラム「crawler」のディレクトリを作っておきましょう。

~$ cd Workspaces
~/Workspaces$ mkdir crawler

これだけです。
説明するために作成しましたので、自分の好きな場所を用意してください。
Windows でする人は勝手が違いますが、やることは同じです。

それでは、次回から早速作っていきましょう。

---

気に入っていただけたら、フォローや好きをお願いします!


連載目次

【初心者向け】Pythonでスクレイピングする環境を作る① はじめに
【初心者向け】Pythonでスクレイピングする環境を作る② Dockerの使い方
【初心者向け】Pythonでスクレイピングする環境を作る③ VSCodeでDocker環境を構築する
【初心者向け】Pythonでスクレイピングする環境を作る④ requestsでデータを取得してみる
【初心者向け】Pythonでスクレイピングする環境を作る⑤ Google検索をしてみる
【初心者向け】Pythonでスクレイピングする環境を作る⑥ スクレイピングでの注意事項
【初心者向け】Pythonでスクレイピングする環境を作る⑦ 検索結果のページのタイトルを取得する
【初心者向け】Pythonでスクレイピングする環境を作る⑧ クラスにまとめてみる
【初心者向け】Pythonでスクレイピングする環境を作る⑨ テストしてみる
【初心者向け】Pythonでスクレイピングする環境を作る⑩ crawler と scraper を分ける


ここから先は

0字

¥ 100

この記事が気に入ったらサポートをしてみませんか?