見出し画像

分析モデルの設計から課題解決へのプロセス


はじめに

データ分析活用には目的設定が大事と良く言われますが、経験がない中で目的と言われてもどこから手を付けて良いか分からず、書籍や企業の活用事例セミナーへの参加からはじめられた方も多いでしょう[1][2]。

しかしながら、日常の業務の隙間時間での情報収集にも当然限界があり、また独学でデータ分析技術のテキストを読み進めるも、ゴールが明確でない中での漠然とした努力は、中々長くは続かないものです。

技術習得に於いて最も大事なことは、問題解消が目的であって、手段であるデータ分析は問題を解消するための課題の解決手段の選択肢の一つということです。決して手段が目的化して勉強に終わらぬよう、くれぐれも意識していただきたいです。

また、解決すべき問題も、担当者レベルの問題よりも、組織的なレベル(部門全体、あるいは事業部レベル)の問題に取り込むことを強くお勧めします。

なぜなら、担当者レベルの問題であれば、データ分析のスキルや解析環境の準備も自己研鑽のレベルなので会社の支援も多くは期待できず、実際には他に協力を仰ぐ必要があっても業務外作業かつ他人の成果なので相談しにくかったり、業務時間外の勉強までで終わってしまうことが多いでしょう。

逆に、組織的なレベルの問題(例えば、製品の見積もり時間短縮・納期短縮)であれば、その問題解決は組織レベルの問題であり、かつ多くの従業員に関わる問題なので協力も得やすく、データの利用もトップダウンで情報システム部門からのサポートを期待できるでしょう。

その分、成果への期待に対するプレッシャー大きいですが、そもそも今まで解決できなかったテーマであり、その過程で業務全体に対する深い理解を含むリターンは想像以上に大きいものです。

以下の図に、分析モデルの設計に基づく課題解決⇒問題解消プロセスのステップを示しました。

プロセスを理解し、経験値をそれぞれの箱に積み上げることは、新しいプロジェクトにおいて、応用可能なノウハウとして活きることが多いでしょう。

問題解決へのデータ分析活用プロセス

以下では、各ステップについて説明して行きます。

企業の目指す姿と現状とのギャップ

そもそも問題とはなんでしょうか? 
それはあるべき姿(理想)と現在の姿(現実)とのギャップと捉えることができます。

逆に言えば、現状で満足な状態であれば、解消すべき問題は存在しないことになりますが、そのために必要な維持コストや環境変化に対する将来的なリスクを考えれば、常に問題を解消するための施策が必要でしょう。

企業では、環境変化を前提とした企業成長に必要な中長期計画を立てますが、その実現=ギャップ解消にむけたデータ活用のシナリオを見いだすのが良いでしょう[3]。

現状業務プロセスの課題設定

対象となる業務の中で、ギャップ解消につながる可能性の高い業務プロセスの課題にターゲットを当てます。より具体的には、意思決定プロセスの観点で業務課題を整理します。

例えば、ダイレクトメールの反応率に基づく配送コストの適正化に課題があるとした場合に、現在どのようなデータや情報、勘、コツ、経験に基づいて送付先のターゲット選定を行なっているか、その際に何が課題かを言語化・形式知化します。

業務担当者の頭の中で、長い年月をかけて構築されたニューラルネットワークモデルをリバースエンジニアリングする意識で、どのような入出力から学習が行われてきたかを探ってみてください。

課題解決のための仮説立案

取り組む課題が定まったら、課題発生要因を絞り込みます。

すなわち、上記例であれば、サービスや商品の特性、顧客の個人情報、前回のダイレクトメールに対する反応有無等、反応率に影響を与えると考えられる要因を業務視点で列挙します。

要因の列挙に関しては、より広い視点(ロジカルシンキングあるいはクリティカルシンキングのためのフレームワークの活用も有効です)で考えておくと、1つの仮説で期待した成果に繋がらなかった場合の戦略の見直しに活用できます[4]。
なお、この段階では対応するデータが利用できるかどうかについては意識しないで結構です。

新業務プロセスの設計

具体的なモデルの作成の前に、業務プロセスの中でどのように分析モデルを組み込んだ意思決定を行うかの設計を行います[5]。

その際には、実際に分析結果(分析モデル)を利用する業務担当者の意見を仕様に反映させます。分析結果が出てから、さあどう活用しようか?とならないよう注意してください。

また、作成したモデルの実務での検証手順に関しても、業務担当者と擦り合わせが大切です。

分析モデルの詳細(内部)設計・開発・検証

ここでは、仮説立案に基づく要因候補に対応する候補データの選定と、新業務プロセスでの要求事項に見合う分析モデルの設計を行い、学習に利用するデータの特性を把握します(新たに実験データを収集する場合には、実験計画法の直交配列表実験を活用することでコストを抑えられます[6])。

説明変数の値に欠損値異常値がある場合には、サンプル数が十分多い場合にはレコード自体を削除するのがベストですが、業務の観点で妥当な補正ルール(0や中央値で補完する等)を決め、サンプルデータを有効活用できるよう十分検討します。

説明変数のみで教師値がないレコードがある場合には、欠損のないデータで作成した予測モデルを用いて欠損値を推定し、学習データとして加えてもう一度学習を行う戦略もあります(半教師付き学習)。

次に、教師データの分布は、課題の解決に有効なデータが十分含まれているかどうか、また説明変数との相関係数(一般的に0.3以上の変数は必要)が業務知見と矛盾しないかどうかを確認し、学習データの質を確認します。

高性能なモデルを実現するための機械学習等の分析モデルの評価改善プロセスに入る前に、線形モデルで性能面を予備的に確認すると、分析モデルのステップの見通しが良くなります。

分析モデルの評価では、互いに独立性の高いデータセットを定義して、交差検証(クロスバリデーション)により分析モデルの性能が目標性能を満足するかどうかを確認します。性能が不十分な場合に、ハイパーパラメータの見直し以外にも様々なテクニックが知られています[7] 。

例えば、データの特性を教師なし学習によるクラスター性の有無を確認し、分析モデルの構成をクラスター毎に構成するハイブリッド戦略などが良く行われます。

ニューラルネットワークモデルのような点推定のモデルにおいては、その推定値の信頼度を評価するために、複数の上位性能のモデル群からの平均値と出力のばらつきを信頼度として評価する、アンサンブル学習(集団学習)の戦略が取られることも多いです。

いずれにせよ、分析モデルの精度の最初の目標は、業務担当者の意思決定の精度となるでしょう。

予測に対するテストデータによる評価・検証・リテラシー教育

このステップでは、実運用データを用いた分析モデルの性能評価を行い、運用での性能面での問題を確認します。

新業務担当者向けの分析モデルの特性や活用のためのリテラシー教育を行い、業務運用上の考えられるリスク(異常値が入力データとして与えられた場合やシステムのメンテナンス時の対応などのイレギュラーな処理)とそれに対する回避策を担当者の意見に基づいて決定します。

仮運用評価・検証

分析モデルを業務システムに組み込み、仮運用評価を行います。
ここでは期待される効果が検証期間に渡り維持されるかどうかを検証します。

可能であれば(ロジックの評価で実行されたタイミングが影響しないように)既存及び新ロジック(=AI)をランダムに組み合わせたA/Bテストでの評価を行えると理想的です。

最終的には、定常運用はAIで、非定常処理(設備の立ち上げや停止時など)を現場担当者が対応する形が現実的な解となるでしょう。

実運用評価

最後に、仮運用評価から本運用へ移行します。

また、定期的な性能評価と課題対策を行い、新業務システムのパフォーマンスをモニタリングして改善プロセスを継続します。

常時モニタリングにはBIツールや可視化ツールなどの導入も有効でしょう。

業務課題解決と組織の成長

課題解決プロセスにより、実際に問題=ギャップの解消に至ったかどうかを経営的に判断し、次の課題にテーマを移行していきます。

以上見てきたように、データ活用プロジェクトで成果を出すためには、多くの乗り越えるべき山が存在し[8]、実際に乗り越えるための体力とプロジェクト運営経験の蓄積が必要です。

そこでは、信頼できる経験豊富なITコンサルタント等のサポートを受けて、確実に成果に繋げる判断も必要になるでしょう。

最近は、DXの取り組みに関するプレスリリースにより、社内のノウハウを同業種の課題解決ソリューションとして新しいビジネスにつなげると同時に、外部からの注目されることで社員の業務データに対する意識改革に効果的に活用されている企業も目につきますね。

いずれにせよ、データ分析の目的を組織の課題の解決に設定して、着実に成果に繋げていただけたらと願っています。

[1] Note: データ分析プロジェクトを料理に例えて理解してみよう
[2] データ分析プロジェクトのプロセスを定義したCRISP-DM(Cross-industry standard process for data mining)が古くから知られています。
[3] 齋藤嘉則(2010)『問題解決プロフェッショナル―思考と技術』ダイヤモンド社.
[4] 柏木 吉基 (2023)  『結局、仮説で決まる。』 日本実業出版社.
[5] 河本 薫 (2022)   『データ分析・AIを実務に活かす データドリブン思[6] 柏村孝義 他 (1998) 『実験計画法による非線形問題の最適化』 朝倉書店.考』 ダイヤモンド社.
[7] 門脇 大輔 他 (2019) 『Kaggleで勝つ データ分析の技術』 技術評論社.
[8] 河本 薫 (2013) 『会社を変える分析の力』  講談社現代新書.

※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。社内セミナーの企画等、お気軽にご相談いただければ幸いです。

製品カタログ

この記事が気に入ったらサポートをしてみませんか?