AI2nd day8　データの収集・データパイプライン

専攻医2025

2025年1月31日 08:59

day7　Q&A

①自分が理解している範囲でないと、AIは使えない？

→最終判断は人間が行う。AIとその出力自体に関して深く理解する必要はない。あくまでも大量のデータをバイアスなく処理し、予測をするという面でAIを用いて、それをどう使うかという最終的な決定は人間が行う。

②農業などはAIが単体で介入することは難しいのでは？センサーとバルブやポンプなどを組み合わせたシステムを導入しようと思っても、コストが大きすぎる

→介入は可能。安価にシステムを導入することも可能になってきている。
市販のセンサーにモバイルバッテリー
ソフトウェアもAIを使って作成。総計5000円いかないくらいで、モバイルバッテリーとソフトウェア搭載のセンサーを作り上げることが可能。

例えば、照度センサー：

CO2センサー：

スターターキット（ハンダ付けしなくても良いやつ）：

③分析がうまくいかない

→分析自体が目的ではない。
ビジネスにおけるボトルネックとなっているところを見つけて、
そこにはどんな人間が、どのような意思決定がされていて、何が要素になっている？そこのデータをAIに入力して、意思決定の精度を上げるということ。「データがあるから分析をしよう」ではない。

本編

ステークホルダーが何をやっているのかを、想像ではなくリアルな場面で収集する。それぞれの人の仕事の場面をひたすら観察をして、業務の工程をまとめる。

スイムレーン図を作ってみる

実際の仕事での自分の作業の工程を棚卸しして、紙に書いてみる。
スイムレーン図を作ることで、どこにどのようなデータがあるのかを導き出す。

データを集めることは難しい

いろいろなデータが、いろいろなところに、いろいろな形で集積されている。あるいはデジタルデータではなく、紙に記載されていたりするかもしれない。それらのデータをどうやって集めるのか。

スイムレーン図を作ると、誰がどの作業工程でデータを持っているのかがわかる。自分が解決したい業務工程のデータを集めたいときに、スイムレーン図で誰が関わっているかを見つけて、その人にデータをもらいにいく。
大抵シブい顔をされるので、「あなたの業務を楽にさせる、メリットがある」ことを提示する。こうして初めてデータを入手できる。
今後のPBLにも当てはまるが、データをいかに集めるかがキーポイント。

AI倫理

AI倫理とは、AI開発や利用において社会に悪影響を与えないようにするための指針のこと。

例：エッジAI
監視カメラにAIを搭載して、画像情報そのものをサーバには送らないようにする。ローカルで個人特定につながる情報を全て切り落として、サーバには一部の情報（人数だけ、など）のみを送るようにする。

データパイプライン　データを集めて分析用の形へ変換

分析しやすいデータとは、下記図のように1行目にヘッダー（販売数などの項目）があり、2行目以降に数字が書かれているもの。セル結合がなく、欠損値がないというもの。

しかし、通常は上記のようなデータベースの形でデータが保存されていることは稀で（そもそも上記のように保存されているのは、データ分析を主目的に集めている場合である）、分析が難しい形で保存されていることが多い。
それらのデータをまず抽出して集めてきて、分析に適した形に変換して、データベースとして保存する必要がある。

最初にパイプを繋いでパイプラインを作り、作り上げた以降は自動化する。この抽出、変換、保存の流れをパイプラインの如く自動化しようという考え方。これができて初めて、分析ができるようになる。

次回からAzureでの作業が始まる。いよいよ実践。

AI2nd day8 データの収集・データパイプライン

day7 Q&A