変数変換の乱用してもだめなんよ。。

統計学を学ばせていただくと、以下のような「変数変換」というものにでくわす。

  • 標準化

  • Min-Max Scaling

  • 対数変換

  • Box-Cox変換

ある回帰分析の精度を競うコンペで、ある種濫用的に変数変換を使ってみたが、ほとんど精度が変わらない。

ほんとに効果あるんかなを調べるため

  • 精度(決定係数, MAE)

  • 散布図のきれいさ

の観点から、↑の変換前後をみてみました。
見ての通り、、分布の形からそんなに変化ありません。

変換前の散布図はこちら ※目的変数: 取引価格、説明変数: 面積 です。

変換前の散布図。

以下、4変換後の散布図、精度です。

標準化
mae(標準化): 0.24960172659963104
R2(標準化): 0.1949936644664253
Min-Max Scaling
mae(標準化): 0.24960172659963104
R2(標準化): 0.1949936644664253
対数変換


mae(対数変換): 0.24960035755090024
R2(対数変換): 0.19501722436610347

今回は理解のために説明変数1つで行いました。
使えそうな変数すべてに対して、BoxCox, 標準化を行いました。
結果は、BoxCoxにより、MAE精度向上。標準化により、精度ダウンでした。
変数変換に限らず、PCA、欠損値処理等いろいろありますが、適用できるからと適用しても、むしろよくないほうこうにいってしまうことが多いので、使いどころを見極めつつ使いましょう。と思いました。

この記事が気に入ったらサポートをしてみませんか?