パターン認識と機械学習 学習ノート - 多項式曲線によるフィッティング2
この記事は「パターン認識と機械学習 (丸善出版社)」の読書ノートです。
前回は多項式曲線で現実の背後にある規則を近似する方法を議論した。今回の記事ではその際に起こる過学習の問題をどう解決するかについて議論する。
過学習の問題を制御するためによく使われるテクニックとして正則化がある。
過学習が起こる理由として、モデルのパラメータ$${\bold w^*}$$が大きい値をとってしまうことがある。これにより、訓練に利用したデータ以外の入力を与えると、データに込められているランダムノイズの影響を誇張するため、訓練データに対しては誤差を最小にするが、その他のデータに対しては誤差が大きくなってしまう。
このメカニズムによる影響を少なくするには、モデルのパラメータの絶対値が大きい値をとってしまうようなとき、誤差がより大きくなるように調整をかける。これを正則化とよぶ。具体的には以下のように誤差関数$${E(\bold w)}$$に罰則項と呼ばれる項$${\lambda ||\bold w||^2 / 2}$$を追加する。
$$
E(\bold w) = \frac{1}{2} \sum_{i = 1}^N \{y(x_i, \bold w) - t_i\}^2 + \frac{\lambda ||\bold w||}{2}^2
$$
ここで、$${||\bold w||}$$はパラメータベクトルのユークリッドノルムであり、$${||\bold w||^2 = (\bold w, \bold w) = \sum_{i=0}^M |w_i|^2}$$。係数$${\lambda}$$は誤差を評価する際に罰則項をどれだけ重要視するかの制御係数である。罰則項を取り入れた場合でも誤差関数を最小にする解$${\bold w^*}$$を求めることができる。この事実は後に証明する。
このような正則化項(罰則項のこと)を追加するテクニックは統計学の文脈では縮小推定といい、特に今回のような2次項を加える場合をリッジ回帰という。さらにニューラルネットワークの文脈では荷重減衰として知られている。
罰則項が過学習の問題を緩和しているかを調べるには、パラメータ数が$${M \ge N}$$のときに作られたモデルに対して、実際に$${\lambda}$$(グラフを見やすくするために$${\ln \lambda}$$が用いられる)を横軸、平均二乗平方根誤差$${E_{RMS}}$$を縦軸にとったグラフを、訓練集合とテスト集合に対して作成してみれば良い。そうすると以下のような傾向が見られる。
$${\lambda = 0}$$付近: 訓練集合→$${E_{RMS} \approx 0}$$、テスト集合→$${E_{RMS}}$$が大
$${\lambda}$$が$${0}$$から遠い: 訓練集合とテスト集合の$${E_{RMS}}$$は同じ傾向を取る
この記事が気に入ったらサポートをしてみませんか?