Python2年生:7日目
今日はデータのミスをチェックするところから。
pandasでデータがない部分はNaN表示。
欠損値という。
わざと欠損値のあるデータフレームを作る。
欠損値の個数を数える。
欠損値のある行を削除する。
ところまでやってみる。
そしたら次は…
欠損値を平均値で埋める
欠損値を一つ前の値で埋める
(エクセルでやろうと思うと地味にめんどくさいやつだな)
「温度のように連続的に変化する値はあまり上下しないように」と本文にあって、「最近は、乱高下してるけどな…」と思ってしまった。
冬の2月に4月下旬の気温が3日くらいあって、そのあとまた平年並みになってたら普通は「入力ミス」を疑うよね…。そうよね…。
次は…
重複データの削除
まず重複データのデータフレームを作って
重なってるデータの個数を数えて
重複データの2つ目以降を削除する
できた。とはいえ…実際にこれをすることはあまりないんじゃないかなぁ。重複データ=打ち間違いとも限らないしさ。
次は…文字列型のデータを数値に変換する
まずはデータフレームを用意する
データタイプを調べて、文字列データを整数型に変換する
次は、カンマ付き文字列の列データのカンマを削除する
次の章に入るので今日はここまで。
本のリンクはAmazonアソシエイトプログラムを使ってます。
この記事が気に入ったらサポートをしてみませんか?