変数変換の乱用してもだめなんよ。。
統計学を学ばせていただくと、以下のような「変数変換」というものにでくわす。
標準化
Min-Max Scaling
対数変換
Box-Cox変換
ある回帰分析の精度を競うコンペで、ある種濫用的に変数変換を使ってみたが、ほとんど精度が変わらない。
ほんとに効果あるんかなを調べるため
精度(決定係数, MAE)
散布図のきれいさ
の観点から、↑の変換前後をみてみました。
見ての通り、、分布の形からそんなに変化ありません。
変換前の散布図はこちら ※目的変数: 取引価格、説明変数: 面積 です。
以下、4変換後の散布図、精度です。
mae(標準化): 0.24960172659963104
R2(標準化): 0.1949936644664253
mae(標準化): 0.24960172659963104
R2(標準化): 0.1949936644664253
mae(対数変換): 0.24960035755090024
R2(対数変換): 0.19501722436610347
今回は理解のために説明変数1つで行いました。
使えそうな変数すべてに対して、BoxCox, 標準化を行いました。
結果は、BoxCoxにより、MAE精度向上。標準化により、精度ダウンでした。
変数変換に限らず、PCA、欠損値処理等いろいろありますが、適用できるからと適用しても、むしろよくないほうこうにいってしまうことが多いので、使いどころを見極めつつ使いましょう。と思いました。
この記事が気に入ったらサポートをしてみませんか?