[Rによるデータ分析入門]欠損値処理方法のまとめ
本コラムではRで欠損値を処理するための関数やtipsをまとめています。
欠損値とは何か
データセットの中の数値が入っていない個所を欠損値といいます。たとえばEXCELで作成したデータセットで空欄になってところがあると、これをRで読み込ませるとNAと表示されます。NAはNot Avaiableの意味です。
欠損値かどうか判定する関数:is.na()
欠損値かどうかを判定するにはis.na()関数が使えます。is.na(x)でxが欠損値のとき真となり、欠損値でない場合は儀となります。
欠損値を含むデータ行を削除する:drop_na()
たとえばxに欠損値が入っている場合、その行を削除したい、という場合は、drop_na()を使います。
欠損値を含むデータで相関係数行列を計算したい
相関係数行列はcor()関数で作成できますが、この関数は欠損値を含む変数については相関関係を計算してくれません。そこで、cor()関数を使う時は「欠損値ではないデータだけで相関係数を計算せよ」という意味のオプション、use="pairwise.complete.obs"をつけます。これを必ずつけるという癖をつけておくと、エラーが出て止まってしまう、という事態を避けられます。
cor(dataframe, use="pairwise.complete.obs")
なお、lm()関数で対数をとって回帰分析する際にデータに欠損値が入っていると計算結果が出てきません。このトピックについて以下のコラムで説明していますので、関心のある方はチェックしてみてください。
[Rによるデータ分析入門]対数による回帰分析でエラーが出るときの対処法|Toshiyuki Matsuura (note.com)
本コラムは「Rによるデータ分析入門」のWEBサポートページとして作成されました。WEBサポートの一覧は以下を参照してください。
WEBサポートの一覧は以下を参照してください。