世界の気候データを分析して可視化する
世界の気候データを分析し、Looker Studioを活用して可視化するプロジェクトについて学習しました。このプロジェクトは、気候変動がもたらす影響をデータから捉え、具体的な傾向や特徴を明らかにすることを目指しています。特に、膨大な気候データを効率よく処理し、それを視覚的に理解しやすい形で提示することを重点としています。
ステップ 1: 必要なツールを準備
1. Googleアカウントの作成
Googleサービスを利用するために、Googleアカウントを作成します。
Googleアカウント作成ページから登録してください。
2. Google Cloud Platform (GCP) のセットアップ
Google Cloud Consoleにアクセス。
プロジェクトを作成し、BigQueryを有効化します(初期の無料クレジットが付与されます)。
3. Looker Studio の準備
Looker Studioにアクセスして利用の準備をします。
4. Python環境
Google Colabを使用するため、特別なセットアップは不要です。
ステップ 2: データを取得する
1. データセットをダウンロード
Kaggleから「Global Land Temperatures by City」データセットをダウンロードします。
解凍してGlobalLandTemperaturesByCity.csvを取得してください。
2. データ内容の確認
CSVファイルには以下の情報が含まれます:
dt(年月日)
AverageTemperature(平均気温)
City(都市)
Country(国)
Latitude
Longitude
ステップ 3: データを加工
1. Google Colabでの作業準備
Google Colabを開き、新しいノートブックを作成します。
2. CSVファイルのアップロード
from google.colab import files
uploaded = files.upload() # ファイルをアップロード
3. データの読み込みと確認
import pandas as pd
# CSVファイルの読み込み
data = pd.read_csv('GlobalLandTemperaturesByCity.csv')
# データの先頭5行を確認
print(data.head())
4. データの加工
必要な列を選択し、欠損値を除外。
日付を年月単位に変換。
# 必要な列を選択
data = data[['dt', 'AverageTemperature', 'City', 'Country']]
# 欠損値を除外
data = data.dropna()
# 「dt」列を年月に変換
data['dt'] = pd.to_datetime(data['dt']).dt.to_period('M')
print(data.head())
5. 都市ごとの平均気温を計算
# 都市ごとの平均気温
city_avg_temp = data.groupby(['City', 'Country'])['AverageTemperature'].mean().reset_index()
print(city_avg_temp.head())
6. 加工データの保存
加工したデータをCSVファイルとして保存します。
# 加工したデータを保存
city_avg_temp.to_csv('processed_city_temp.csv', index=False)
from google.colab import files
files.download('processed_city_temp.csv')
ステップ 4: BigQueryでデータを管理
1. BigQueryにデータをアップロード
Google Cloud Consoleで作成したプロジェクトを開きます。
BigQueryに移動し、「データセットを作成」をクリック。
データセット名を入力(例: `climate_data`)。
「テーブルを作成」から`processed_city_temp.csv`をアップロードします。
2. SQLでデータを確認
SELECT *
FROM `your_project_id.climate_data.processed_city_temp`
LIMIT 10;
-- Find cities with the highest average temperature for each country.
SELECT
Country,
City,
AVG(AverageTemperature) AS AverageTemperature
FROM
`climate_data.climate_data`
GROUP BY
Country,
City
ORDER BY
AverageTemperature DESC
LIMIT
10;
ステップ 5: Looker Studioでデータを可視化
1. Looker Studioにアクセス
Looker Studioにアクセス。
Googleアカウントでログイン。
2. BigQueryをデータソースとして接続
「データを追加」からBigQueryを選択。
アップロードしたデータセット(例: `climate_data`)とテーブル(例: `processed_city_temp`)を選択。
「接続」をクリックしてデータを取り込みます。
3. レポート作成
地図の追加
「次元」: `City`(都市名)
「指標」: `AverageTemperature`(平均気温)
BigQueryと一般的なデータベースの比較
データベースの選択は、業務の内容やデータ量によって異なります。以下に、BigQueryと一般的なRDBMS(リレーショナルデータベース管理システム)の違いをまとめました。
1. 適した業務の比較
2. データ保存の仕組み
3. クエリの速さ
結論
RDBMSを選ぶべきケース: 小規模なデータ管理やリアルタイム処理が必要な場合。
BigQueryを選ぶべきケース: 大規模データの分析やインフラ管理の負担を軽減したい場合。
本記事では、世界の気候データを分析し、可視化する手順について学習しました。このプロセスを通じて、気候変動に関する膨大なデータを効率的に処理し、視覚的に理解しやすい形で提示する重要性を深く理解しました。また、Looker StudioやBigQueryといったツールを使用してデータを分析する際の利便性や、ツール選定のポイントについても整理しました。これらの知識を活かし、自分のプロジェクトに適した方法でデータを活用できるようにしていきたいと思います。