決定木分析とは?(手法解析から注意点まで)
■はじめに
この記事はYouTubeにアップした動画との連動記事です。
というよりむしろ動画がメインで、こちらの内容は概要レベルのものとなっております。
内容をしっかり理解するためにも、ぜひ動画と合わせて本文を読んでみてください。
(↓画像クリックで動画をご視聴頂けます。)
■決定木分析とは?
観測された変数の中から”目的変数”に影響する”説明変数”を明らかにし、樹木状のモデルを作成する分析手法のことです。
例えば、購入率40%のある商品が誰によく買われているのか知りたい時、下記の図のように樹木状で視覚的に把握できるので解釈が簡単です。
主にマーケティングで活用されますが、近年では、機械学習にも応用されています。
■マーケティングリサーチでの利用シーン
・商品のターゲット層を知る
これまでは仮説に基づいてクロス集計を作ることが多かったと思いますが、決定木分析を知れば樹木状で詳しく知ることができるのでより詳しく見ることができます。
■データサイエンスでの利用シーン
・決定木単体のモデルを構築し、予測や分類に活用
・決定木を応用させた機械学習モデルの活用
■結果の見方
①上から順に説明変数を確認する
まずは上から順に説明変数を確認します。
上記の例の場合は「世帯年収」の項目となり、これが分類に1番効いているということです。
②人数と結果の値を確認する
次は人数と結果の値を確認します。
今回の場合、世帯年収が600万円以上かつ、20〜30代男性と20代女性の購入率が53%なのでこの層がターゲット層、というようになります。
■決定木分析の注意点
①現れていない変数はカットされていることもある(剪定)
現れていない変数は元々効いていない可能性や、調査会社でカットして出てきている可能性もあるので覚えておいてください。
②木の構造が深すぎると問題が発生することもある
木の構造が深すぎると下記のような問題が発生します。
・解釈が難しくなる
・悪いモデルになってしまう(過学習)
■用語の説明
※結果を見るだけなら、とりあえず理解しなくても大丈夫です。
・決定木には、「分類木」と「回帰木」があります。
・アルゴリズム :CART、CHAID、C4.5など
・分割の基準 :ジニ係数、平均情報量(エントロピー)など
■決定木分析まとめ
【利用シーン】
商品のターゲット層を知る
⇨詳しくターゲット層を知りたいけど、色々なパターンのクロス集計を見るのは大変。
【結果の見方】
・上から順に説明変数を確認する。
・人数と結果の値を確認する。
YouTubeでは更に詳しく、わかりやすく解説しています。
ぜひ記事と併せて御覧ください。