見出し画像

素人がChatGPTを使って”タイタニックコンペ”に参加するまでのお話(決定木編!)

はじめに

こんにちは!ChatGPT部の原田です!前回ランダムフォレストを使用して予測をしてみました!
精度は82%、今回は、決定木を使用して結果を比較していきたいと思います!
前回の記事はこちら!↓

1. 予測準備

前回と同じステップで進みます!まずは、プロンプトを!

前回とほぼ同じプロンプトを使用しています!

予測開始!

分析してもらい、

ここらへんも前回と同じです!

結果

果たして結果は、、、

77%!!下がった!!

原因を聞いてみましょう!

以下ChatGPTからの回答です!


主な理由

  1. 決定木は過学習しやすい: 決定木は1つの木を作成するため、過学習しやすく、特にデータの分布が複雑な場合に精度が下がることがあります。ランダムフォレストは複数の木を作成して、その結果を平均化することで過学習を防ぎ、より安定した予測を行います。

  2. モデルの分散とバイアスの違い: 決定木は非常に低バイアスで高分散のモデルであるため、単一のデータセットに対して敏感に反応しやすいです。対して、ランダムフォレストは複数のサンプルや特徴量のサブセットを使うことで、バイアスと分散のバランスが取れた結果を提供します。これにより、ランダムフォレストの精度が高くなることが多いです。

  3. 決定木のパラメータチューニングが不足: 決定木には、木の深さや最小サンプル数などのパラメータがあり、これを適切に調整しないと過剰に複雑な木や逆に単純すぎる木になる可能性があります。ランダムフォレストは自動的に多数の決定木を作成するため、調整の手間が少なく、初期の精度が高くなる傾向があります。

  4. データのランダム性: データをトレーニングと検証に分割する際に、分割のランダム性により異なるパフォーマンスを示すことがあります。ランダムフォレストは多数のデータセットを使うため、特定の分割による影響が少なく、決定木よりも安定した結果を提供することが多いです。

精度を向上させたい場合、決定木に対するハイパーパラメータのチューニングや、データのクロスバリデーションを行うと、より良い結果が得られる可能性があります。


回答の難易度を下げて、わかり易くしてもらいます。
この辺については、慣れてくるとカスタムインストラクションズなどの設定をしておくと良いでしょう。

回答の結果はこちらになります。


データ分析初心者向けに、精度が下がった原因について簡単に説明しますね。

決定木とランダムフォレストの違い

まず、決定木ランダムフォレストは、どちらも「木」を使った予測の方法です。でも、この2つには大きな違いがあります。

  1. 決定木は1つの「木」を使って予測します。この木は、どんどんデータを「はい」「いいえ」で分けていき、最後に予測を出します。これだけだと簡単に見えますが、実はこの方法だと、データに過剰に適応してしまうことがよくあります。これを過学習といいます。

    • 過学習っていうのは、モデルがトレーニングデータにピッタリすぎて、新しいデータに対して正しい予測ができなくなることです。ちょうど、テストのために問題集を丸暗記して、本番で違う問題が出ると解けないようなイメージです。

  2. ランダムフォレストは、たくさんの決定木を作って、その木たちが多数決で予測を出す仕組みです。だから、1本の木が間違えても、他の木がカバーしてくれるので、全体的に精度が上がります。これは、「問題集のいろんなページを勉強して、全体を理解している」みたいな感じです。

決定木の精度が下がった原因

決定木の精度がランダムフォレストに比べて下がったのは、次のような理由があります。

  1. 1本の木は間違えやすい: 決定木は1つの木だけで予測するので、ちょっとしたデータの偏りやノイズに敏感です。例えば、ある質問に対して「男性は生き残りやすい」と決めつけてしまうかもしれません。でも、ランダムフォレストはたくさんの木を使っているので、そういう間違いが少なくなります。

  2. バランスが悪いことがある: 決定木は、自分で「このパターンはこう!」と決めつけるのが得意です。そのため、細かい部分までしっかり覚えすぎることがあります。しかし、それがかえって新しいデータにはうまく適用できず、結果として精度が低くなることがあります。

  3. 設定(パラメータ)が難しい: 決定木は、「どれくらい細かく分けるか」などの設定が必要です。これを上手に調整しないと、木が大きくなりすぎてしまったり、逆に小さすぎて大雑把な予測しかできなくなったりします。ランダムフォレストは、自動でたくさんの木を作るので、細かい設定をしなくても初めから精度が高いことが多いです。

まとめ

  • 決定木は1本の木を使って予測するので、データに過剰に反応してしまいがちです。だから、新しいデータには弱いことがあります。

  • ランダムフォレストはたくさんの木を使って予測するので、1本が間違えても他の木がカバーしてくれるため、精度が高くなりやすいです。

簡単に言うと、ランダムフォレストは「チームで予測する」ので安定しているけど、決定木は「1人でがんばってる」ので、ミスしやすいということですね!

こんな感じでわかりやすかったでしょうか?もしさらに詳しく知りたいことがあれば、気軽に聞いてくださいね!


「チームで予測する」、「1人でがんばってる」とってもわかりやすかったです!

まとめ

今回は、決定木を使用して予測をしていきました!ランダムフォレストとの違い、とてもわかり易かったですね!今回記録更新ならずでしたが、、
決定木での制度をもっと上げるべく、次回!リベンジします!

今回は以上です!!

いいなと思ったら応援しよう!