見出し画像

ChatGPTでデータ活用を内製化しよう!(講義3回目:業務改善編 CRISP-DMの概要)

こんにちわ、ペンギンラボです。データ活用の内製化、週一更新どころか毎日更新となっていて、そろそろ息切れするかもと思いながら書いていますw

それでは、今回は3回目ということで、前回お話ししたCRISP-DMの中身について、その詳細を見ていきましょう。今回は以下の図にある6つのステップのうち、最初の2つの「ビジネスの理解」、「データの理解」について概要をお話しします。
※技術的な細かい話については、技術編で詳しく扱いますので、まずは各ステップで検討すべき事項を大まかに理解しましょう。

CRISP-DMの概要

  • STEP1:ビジネスの理解

    • 最初のステップは「ビジネスの理解」です。ここでは、ビジネス現場が抱えている困りごと(課題)をできるだけ定量化し、プロジェクトメンバー全員で共有することが最大のテーマとなります

    • このステップはその後のプロジェクトの成否を左右する重要なステップの一つです。できる限り、プロジェクトの効果を大きなものにするためにも、現場が抱える中でもなるべく大きなテーマにチャレンジしましょう。

    • では、テーマは実際、どう選ぶのか?これまでの経験を踏まえると、周囲のコンセンサスを得やすい方法として、「ビジネスインパクト」と「実現性」の2軸で評価することをお勧めします。「ビジネスインパクト」とは、定量化された効果のことです。つまり、その課題を解決することで、現場にとって年間でいくらのコスト削減に繋がるのか、売上がいくら上がるのか、といったことです。

    • これに対して「実現性」とは、例えば解決手段がAIによる何かの予測である場合、現場が求めるのに十分な精度が出せるかどうか、これが実現性になります。これはプロジェクト初期の段階で評価するのは難しいです。それを確認するのがプロジェクトの目的なのでw ですが、いくつかの手がかりがあります。それは「ビジネスインパクト」の定量化と合わせて、後ほど解説します。

  • STEP2:データの理解

    • こちらは、STEP1で合意した分析テーマを実行する際に必要となるデータの種類と取得方法を具体化するフェーズです。例えば「需要予測」をテーマに、AIで何日間か先の商品の売り上げを予測するとしましょう。その際、「数日先の売り上げに影響を与える要因はなんだろう」と考えるのです。

    • この時、社外に存在するデータにも目を向けましょう。例えば、花粉症対策商品のような季節性商品の場合、気温や湿度などの天候データが予測に有効な場合があります。また、コンビニのお弁当の場合はどうでしょうか?近隣で開催されるイベントやCMなどが影響するでしょう。社外データはAPIや、クローリング(Webページを巡回して情報を収集すること)にて取得できますので、取得方法も併せて検討するようにしましょう。

    • ここで、もう一つ重要なとをお伝えします。それは「実際のデータを見ること」です。「我が社には大量データがあるので、すぐにでもデータ活用できる」とお伺いしたものの、実際にデータを拝見すると、ちょっとデータの品質的にイマイチだった・・・ということがよくありますw

    • 具体的には、データの表記揺れ(ex:斉藤、齋藤)、データの欠損、マスターデータの使い回し(ex:新規商品に廃盤になった商品のIDを流用している)などです。特にマスターデータの品質不備はよくあることです。こういったリスクを事前に見極めるためにも、必ずエクセルなどを使って生データを眺め、疑問点はデータを管理している方に聞くようにしましょう。

    • 最後に、「データ項目定義書」についてです。このドキュメントには、テーブルデータであれば、列ごとの定義情報(ex:フラグ「1」は晴れ、「0」は曇りなど)や、テーブルの結合に使うキー情報が記載されています。これがあれば、データの理解が進みますので、必ずもらうようにしましょう。


以上、長くなりましたが、概要は以上となります。今度は「データの準備」、「モデルの作成」について書きたいと思います。定期的に更新しますので、ぜひフォローお願いします!w