![見出し画像](https://assets.st-note.com/production/uploads/images/21863662/rectangle_large_type_2_e46307dd70be6f58037d9973e9ea8d20.jpg?width=1200)
[Python/統計]Google Colab初心者がオープンデータ活用してみた
最近業務でちょこっとGoogle Colaboratoryなるツールを使っています。
深津さんのTweetを見て、何かしら役に立てるならと投稿してみます。
ここではCOVID-19に関するオープンデータを活用して、データのグラフ化ができるところまでをゴールとします。
誰か、このタイミングで「コロナの実データで学ぶPythonと数字分析とJupiterNotebook入門」みたいなのやってほしい。きっとすごい需要あるし、社会的に意味もありそうだし、お金も流れそう。
— 深津 貴之 / THE GUILD / note (@fladdict) March 30, 2020
Google Colaboratoryとはなんぞや?については、この辺をご覧ください。
このサイトによると、↓の通りらしいです。
端的にまとめると、Google Colabとは、Jupyter Notebookを必要最低限の労力とコストで利用でき、ブラウザとインターネットがあれば今すぐにでも機械学習のプロジェクトを進めることが可能なサービスです。
Google Colabの良いところは「環境設定が簡単」なところと、300万行を超えるようなデータでも高速処理することができる点です。
Google Colaboratoryの追加
はじめに、Googleアカウントを準備してください。
次にGoogleドライブへアクセスし、下記のようにアプリを追加します。
Google Colaboratoryを検索し、赤丸部をクリックしてください。
下記画面が表示されるので、「ドメインインストール」か「個別インストール」どちらかをクリックします。(ドメイン管理者でない場合は個別インストールを選択してください。)
これでインストールは完了です。Google Colaboratoryが新規追加できることを確認してください。
オープンデータの取得と確認
次に視覚化・分析の対象となるオープンデータを取得します。
今回は東京都の新型コロナウイルス感染症対策サイトでアクセスできる下記のデータと北海道のオープンデータポータルを使ってみます。
これらのサイトから陽性患者に関するCSVファイルをダウンロードしましょう。ダウンロードが完了したら中身を確認します。
東京都CSV
北海道CSV
(微妙に構成が違うところがイケてないですが...)
Colabでの操作を簡易にするため、このデータを2点いじります。
1. リリース日・公表日のデータ表記を統一
ExcelかNumbersかGoogleスプレッドシート上で北海道CSVの「リリース日」を"YYYY-MM-DD"形式に変更してください。
ここでは列を追加し、追加した列でリリース日の頭から10文字を抽出(LEFT関数)し、その後列全体を値貼り付け&リリース日列を削除して「公表_年月日」列を作成しました。
2. 使いそうな列名を統一
「居住地」と「患者_居住地」など、東京都CSVと北海道CSVで列名が異なっているので統一します。下記のように北海道CSVを修正しました。
オープンデータの格納
大量のデータを処理する場合、本来はBig QueryやMySQLなどのデータベースツールへの格納がオススメですが、今回は簡単に実践できるようにCSVのままGoogleドライブへ格納して利用していきます。
こんな感じです。今後しっかりデータ分析をしていきたい方はこのキャプチャのようにデータを取得した日付を入れておくことをオススメします。
Google Colabの操作① ファイルの作成
ここまでできたら早速Google Colabを触っていきましょう。
まずはとにもかくにもファイルの作成です。
「新規」→「その他」から、「Google Colaboratory」を選択してください。
これだけでファイルの作成は完了です。
Google Colabの操作② ホスト型ランタイムに接続
赤枠部分の▼をクリックし、「ホスト型ランタイムに接続」を選択します。
Google Colabの操作③ ドライブのマウント
次にさきほど格納したCSVにアクセスできるようにドライブをマウントします。
画面右のフォルダマークをクリックし、
「ドライブをマウント」を選択します。
↓の画面が表示されるので「GOOGLE ドライブに接続」を選択してください。
アカウントを選択すれば、↓のように「drive」フォルダが表示されます。
Google Colabの操作④ データセットの作成
ここから本格的にColabを使っていきます。
まず最初にColabは「コード」と「テキスト」から出来上がっており、コード部分にPythonで処理を記載することでデータを高速に処理することができると覚えてください。
ここから先は
¥ 500
Amazonギフトカード5,000円分が当たる
サポートいただいたお金はすべて事業の推進に利用させていただきます。 お読みいただいただけでも大変励みになります。 ありがとうございます!