
AI2nd#10ふりかえり(MicrosoftAzure:SynapseAnalyticsとによるETL作成)
記事を開いていただきありがとうございます。
だいぶ遅くなってますが未来の自分のためにも必ず記録を残していきます。
01 質問回答

A1:公式サイトに練習に最適な場があるので一度覗いて見てください。
⇒自分は入ってみました!基礎から進めております。(あんま進めてないけど)
なんなら1年経ったら情報が更新されているのは当たり前の世界なのです。サービスを利用する都度最新の情報を調べる癖をつけるといいと思います。

A2:必ずサーバーレスにするように気を付けてください。迷子になるのはよくあることなので、そこまで気にしないで慣れるまでやってみることが大事です。
02 SynapseAnalyticsによるETL作成ハンズオン
前回、ワークスペースの上限に達してしまいうまくいきませんでしたが、Microsoftが想定していない使い方をしていることがいえるため、1つのワークスペースの中で作業することとします。
Microsoftがあらかじめ構築してくれた技術の上に(巨人の肩の上にのせてもらうイメージ)乗っかって作業をするのであれば、そこの常識に倣うのが適切であると考えます。
デファクトスタンダードというエンジニア業界の用語に倣うことにします。

さて、先日の天気予報データを取得してくる仕組みを構築します。
どこからデータをとってきて、どこにしまうのかを設定します。
(備忘録:インターネット上のAPIからデータを定期的に収集し、datalakeに格納する作業)
さらに、3時限目ではデータ分析専用のデータベースをくっつけます。取ってきただけのデータは、分析には不向きです。

どのように変換するかというと、列の名前を人間が設定するのです。データ分析にあたってどのようなデータが必要なのか具体的なイメージを持つことが重要になります。生のデータを分析しやすい形式に前処理することで、とても重要な作業です。

具体例として、最近カンパ先生に相談のあった事例から紹介しますが、カメラから得られた生データ(左)から、白黒のデータ(右)へと変換することで、画像を正しく「23」として機械が認識できるようになりました。
くくり罠のセンサー番号をAIカメラで読み取ってネット上のデータベースに持っていく試み。機械学習までたどり着いたがモデルがうまく7セグメントの数字を読んでくれない。ChatGPTは便利だが自分が要素技術を持っていないので改善ができない。ううーむ。#SUNABACO#AI2nd#電子工作 pic.twitter.com/AdUkhrGlvc
— 亀ちゃん/大三島/KURA-KURA農園 (@JunKametan99765) February 2, 2025
分析にとって何が必要で何が不必要かを人間が判断する必要があります。
03 同期のみなさんの記事紹介
恒例のコーナーです。
みなさん本業も忙しいであろうに偉業です・・・