![見出し画像](https://assets.st-note.com/production/uploads/images/108999672/rectangle_large_type_2_8613e9f5a4cf1cb28281b5cd2e3f2794.png?width=1200)
Microsoft Fabricを使用して天気と野菜の値段の相関関係を可視化してみた
こんにちは、アバナード中村です。
Microsoft Build 2023 で Microsoft Fabricが紹介されましたね!
Microsoft Fabricは「データの集約や加工、データエンジニアリングからBIによる可視化、リアルタイ ム分析までにいたるまでのすべての分析ワークロードをSaaS (Software as a service) ベースで提供す るワンプラットフォームとし、組織のサイロ化を防ぎ、ユーザーのデータの可能性を加速化させるもの」と紹介されています。
まだプレビュー段階ではありますが、今回はこのFabricを使用して、以下のことを行ってみました!
ソースデータをレイクハウスへ格納
レイクハウスからデータをデータフロー(Gen2)で抽出・変換し、レイクハウスへ同期(ロード)
レイクハウス上のSQLエンドポイント(以下のリンク参照)で可視化に必要なデータのビューを作成し、モデル化
Power BI を使用して可視化
では、早速、詳細を説明していきたいと思います。
①
今回は、ソースデータとしてe-Statより、天気データおよび野菜の卸売数量・価額データを取得しました。
ソースファイル(エクセル)の中身:
【例】野菜「かぶ」のエクセルファイル
![](https://assets.st-note.com/img/1687504833180-33ByB71cgc.png?width=1200)
それらをレイクハウスへアップロードします。
まずは、ワークスペースからデータレイクを新規作成します。
![](https://assets.st-note.com/img/1687506127415-yuvULysT9F.png?width=1200)
![](https://assets.st-note.com/img/1687506150269-AZwjTs9dal.png?width=1200)
ソースデータ格納用とします。
![](https://assets.st-note.com/img/1687504941664-QnpA4j2wvM.png?width=1200)
レイクハウスの「Source」にサイトから取得した野菜データエクセルファイル一覧およびお天気CSVファイルをアップロードします。
※「Source」と名前を付けることで「ソースデータはここに保存する」等のルールが作りやすいかなと個人的には思いました。
![](https://assets.st-note.com/img/1687504979991-nE4rkybtNK.png?width=1200)
新規レイクハウスを作成すると以下のように、データセット、SQLエンドポイントも一緒に生成されます。
![](https://assets.st-note.com/img/1687505012297-Ijg4Qlywx2.png?width=1200)
②
次にソースデータの抽出・加工をしていきます。
今回はデータフロー(Gen2)を使用します。
こちらは既に作成したものになるのですが、野菜エクセルファイルは各野菜ごとに全く同じフォーマットなので、関数を使用して変換ステップをパラメータ化(ファイル名、野菜名をパラメーター化)しています。
![](https://assets.st-note.com/img/1687505044158-34KQNsgC1K.png?width=1200)
右下に「データ同期先」を選択できる箇所があります。
ここで加工したデータのロード先を指定します。今回はロード先もデータレイクを指定します。
![](https://assets.st-note.com/img/1687505065968-V71LMuRhIb.png?width=1200)
「Target」コンテナを作成し、ロード先のテーブルを作成しています。
(ワークスペース単位でフォルダが作成されています。)
![](https://assets.st-note.com/img/1687505092785-ksSXoHUDNf.png?width=1200)
最後に列のマッピングを行います。
![](https://assets.st-note.com/img/1687505116652-eZjxyyN4cN.png?width=1200)
全ての設定が完了したら、最後にデータフローの「公開」ボタンをクリックします。
③
Power BI でデータを可視化するために、データモデルを作成します。
FabricではSQLエンドポイントが用意されているので、そこでデータモデルを作成していきます(ビューの作成も可能です)。
以下の「モデル」タブを開きます。
![](https://assets.st-note.com/img/1687505146945-OAvisC7BcU.png?width=1200)
以下のようにモデルビューに切り替わります。
![](https://assets.st-note.com/img/1687505166780-OUvKcmtrEe.png?width=1200)
④
最後に③で作成したモデルを使用してデータを可視化していきます。
各年度の年間降水量・年間日照時間と主な野菜の卸売数量・価格の関係を可視化してみました。
![](https://assets.st-note.com/img/1687506224828-s5SDnheA9D.png?width=1200)
ビジュアルから、年々野菜の卸売数量が減少傾向にあること、年間の日照時間が極端に少ないと野菜の卸売価格も高くなる(1991,1993,1998年)傾向にあることが分かりますね。
以上、「Fabricを使用して天気と野菜の値段の相関関係を可視化してみた」でした!
Fabricを使用してみて。。
SaaS製品なので全ての処理を1つの場所で完了できます。これは便利だなと思いました。
今後も機会あれば他の機能も試してみたいと思います!
最後まで読んで頂きありがとうございました。
アバナード関西オフィス 中村 佳寿美
#Microsoft Fabric, #作ってみた, #Dataflow, #Power BI, #データフロー, #データモデル