ML Ops(AIシステム運用の視点)
僕自身はデータサイエンティストなので、業務やビジネスにおける問題がデータサイエンスによって解決できるかどうかの視点が強い。
但し、その解決した状態を定常化するためのAIシステムをいかにうまく運用していくか、そのためにどのような実装を考えるかも大事な視点。その分野をMLOpsという。データサイエンティストも少なくとも以下の記事くらいの知識は持ってるべき。
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI - YouTube のように「データ中心AI」も提唱されている。旧来的な考え方「モデル中心AI」が一定程度できた上でのことですが、やっぱりダメなデータが大量にあるより質のいいデータが大事だよね、と。プロと素人の間で予測精度に差が出るのは、前処理(特徴量の作成)にかける時間と、機械学習の活用テクニックによります。この前者について、そもそも適切に整備されたデータが入手できれば、テクニックを駆使するより予測精度に貢献するという事例で出始めています。恐らくLLMや画像AIなどの生成AIの進展も、データ中心AIとして考えるとわかりやすいはず。
これって、データクリーニング、そもそもしたくないので、機械判読可読なフォーマットをな世界観でもあるwwww
MLOpsを実際に運用しようとする人は、CyberAgent AI事業本部MLOps研修応用編 - Speaker Deckや機械学習システム デザインパターンもわからないといけないのでしょう、私にはそこまでは。。。
まぁガイドラインとしての以下を見ておけば、データサイエンティストの立ち位置であれば十分と思うんです。もちろんAIシステムを開発・運用する機械学習エンジニアには必須の知識!
上記の教材やガイドラインを隅から隅まで理解しておくよりは、MLOpsに加えて、データマネジメントについても知っておく方がデータサイエンティストには有意義だと思う。
企業がデータとアナリティクスで成功するためには欠かせない役割・タスクがデータマネジメントだから。ガートナーの定義は初めての人には細かすぎて、特に知らない人事が変に真に受けてフリーズする内容だが、データサイエンティストと同様以上に求められるべき専門職だと個人的には思っている。いずれここは分けて別の記事にした方が良いかもしれないくらい。
そもそもダークデータをクリーンデータにという話もあります。社内等で使われず死蔵されるのがダークデータ、一説には世界のデータの8割(但し利用価値があるのは5割)ともいわれるとか。
MLOpsとは少し外れるかもだけど、データサイエンスまわりでITコンサルタントが仕事があるとすれば1) 業務で発生しているダークデータ、または、そもそもデータ化されてない情報をクリーンデータ、使えるデータにすること、2) 入手可能なオープンデータやクリーンデータを、データ中心AIで活用できるように適切に整備することあたりなんだろうなというメモ。
ちなみにDS Opsは著名なデータサイエンティスト様による完全なる造語ですが、MLOpsは知らないまでもデータサイエンスをやる人はこうしたことは当然考えるよね、という念のための記事を追記して、ここは終わり。
他の情報も含めて見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note