見出し画像

機械学習の大敵、「過学習」とは

AIは「機械学習」で学習データを元に学習し、未知のデータを正しく判断できるようになります。未知のデータを以下に正しく判断できるかという性能を「汎化性能」といい、AIにとって汎化性能を向上させることが大切です。

しかし、時にこの学習データが適切でなかったり、あまりにも学習データに適合しすぎてしまうと、実際の運用で予測性能が低下してしまうことがあります。これを「過学習(overfitting)」といいます。

過学習の原因

学習の原因には次のようなものがあります。

・学習データが不足している
学習データが少ないと、特定のパターンを学習してしまって汎化性能が低くなってしまいます。

・モデルが複雑すぎる
学習の時に調整する「パラメータ」と呼ばれるものを細かく調整しすぎてしまうと、細かい特徴を学習しすぎてしまいます。

・訓練データとテストデータの分離がうまくいっていない
訓練に利用するとデータと、テストに利用するデータが正しく分けられていないと、過学習の原因となります。

過学習を防ぐには

過学習を防ぐためには、次のような点に気をつける必要があります。

・学習データを十分に増やす
・モデルを複雑にしすぎない
・訓練データを適切に分けたり、訓練データとテストデータを交換して繰り返しテストをする(交差検証)

これらの手法には、例えばモデルの「正則化」として「L1正則化」や「L2正則化」といった手法や、交差検証の手法、ニューラルネットワークの学習のやり方の工夫などがありますが、その辺りはまた書いてみます。


いいなと思ったら応援しよう!