機械学習の内挿と外挿

機械学習において内挿と外挿という概念はデータの信ぴょう性にかかわる大切な項目なんで抑えておく必要があります。入力に対して予測が領域内にあることを内挿、領域外にあることを外挿といいます。

外挿は機械学習では保証外になるため、予測データの利用は難しくなります。言葉では難しいので例を出します。

教師あり学習にて学習データが以下のようにあるとします

X={1,3,5,7}
Y={3,9,15,21}

このデータはY=3Xという直線の関数です。

では、まず内挿とはどういう状態か確認します。

内挿

テストデータとして、X = 2が入力されたとします。すると、Y=6になります。これは学習データの1≦X≦7の中に入っているので、内挿になります。

外挿

次にX=9の時を考えます。Yの値は何になるでしょうか。人間が判断すれば、Y=27となります。しかし、機械学習では学習データの範囲外であるため、このYが正しいかどうかは保証できません。

Xが9以上のデータを取ってきて、学習してから予想しなければいけません。これをが外挿と言います。

時系列データの未来は外挿にはならない

では時系列データで未来を予想するのは外挿になるのでしょうか。答えはNoです。未来を予測するのは外挿にはなりません。しかし、縦軸の数値が学習データを超えた際には、モデルが崩れているので、再度モデルを作る必要があります。


この記事が気に入ったらサポートをしてみませんか?