見出し画像

多重共線性の問題はニューラルネットワークモデルでは解消されますか?

重回帰分析を行なう際に説明変数間に強い相関がある場合、解が不安定となる現象が起こります。

例えば、回帰式を決定するためのデータの測定ノイズがほんの少し異なるだけで,全く異なる偏回帰係数のセットが得られ、ときに符号すら変化してしまうこともあります. これは多重共線性と呼ばれています。

この問題は、極端な例を考えると理解しやすいでしょう。

例えば、予測したい変数をz,説明変数をx,yとしたときに
z = ax + by + c -----(1)

として、最小自乗法によりa,b,c を決定する場合、(標準化された)x,yが独立な場合にはa,bはx,yそれぞれのzに対する影響度を表すと考えることができます。

しかし、例えばxとyの間に
x=2y -----(2)

の関係があった場合、(1)は
z= (2a+b)y -----(3)

と変形されます。

この場合、測定データから(2a+b)は計算できても、aおよびbを単独では決定することは出来ません(解が一意に定まらない)。

多重共線性は本質的に説明変数の独立性の問題であり、ニューラルネットワークモデルの構築に関しても問題は解消されません。業務上、予測値の精度のみが求められる課題では、多重共線性は実際上は問題になりませんが、逆問題への予測モデル活用で、制御因子の値を決定する場合には、予測精度を多少犠牲にしても多重共線性の問題を回避する必要があるでしょう。

多重共線性の問題を事前に排除する視点として、物理的にほぼ同じ意味の変数は一方を削除、因果関係として中間因子[1]として考えられる場合にはモデルの分割や削除を検討します。定量的には、変数同士の相関係数が高い変数(0.8以上が目安)が、その検討候補を抽出する目安になるでしょう。

[1] 中間因子は、原因と結果の間に位置し、その連鎖の一部として作用する変数。

※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年 
 以上に渡るプロジェクト経験に基づき、ご支援しています。
 社内セミナーの企画等、お気軽にご相談いただければ幸いです。

製品カタログ


いいなと思ったら応援しよう!