見出し画像

AI2nd#10ふりかえり(MicrosoftAzure:SynapseAnalyticsとによるETL作成)

記事を開いていただきありがとうございます。
だいぶ遅くなってますが未来の自分のためにも必ず記録を残していきます。

01 質問回答

Q1

A1:公式サイトに練習に最適な場があるので一度覗いて見てください。
⇒自分は入ってみました!基礎から進めております。(あんま進めてないけど)
なんなら1年経ったら情報が更新されているのは当たり前の世界なのです。サービスを利用する都度最新の情報を調べる癖をつけるといいと思います。

Q2

A2:必ずサーバーレスにするように気を付けてください。迷子になるのはよくあることなので、そこまで気にしないで慣れるまでやってみることが大事です。

02 SynapseAnalyticsによるETL作成ハンズオン

前回、ワークスペースの上限に達してしまいうまくいきませんでしたが、Microsoftが想定していない使い方をしていることがいえるため、1つのワークスペースの中で作業することとします。

Microsoftがあらかじめ構築してくれた技術の上に(巨人の肩の上にのせてもらうイメージ)乗っかって作業をするのであれば、そこの常識に倣うのが適切であると考えます。
デファクトスタンダードというエンジニア業界の用語に倣うことにします。

デファクトスタンダードとは

さて、先日の天気予報データを取得してくる仕組みを構築します。
どこからデータをとってきて、どこにしまうのかを設定します。
(備忘録:インターネット上のAPIからデータを定期的に収集し、datalakeに格納する作業)

さらに、3時限目ではデータ分析専用のデータベースをくっつけます。取ってきただけのデータは、分析には不向きです。

データとしては余計なものがついている

どのように変換するかというと、列の名前を人間が設定するのです。データ分析にあたってどのようなデータが必要なのか具体的なイメージを持つことが重要になります。生のデータを分析しやすい形式に前処理することで、とても重要な作業です。

前処理の具体例

具体例として、最近カンパ先生に相談のあった事例から紹介しますが、カメラから得られた生データ(左)から、白黒のデータ(右)へと変換することで、画像を正しく「23」として機械が認識できるようになりました。

分析にとって何が必要で何が不必要かを人間が判断する必要があります。

03 同期のみなさんの記事紹介

恒例のコーナーです。

みなさん本業も忙しいであろうに偉業です・・・

いいなと思ったら応援しよう!