[Rによるデータ分析入門]select、filter、arrangeの実例
本コラムでは、「Rによるデータ分析入門」第1章1.7節の補足として、データセットを限定する関数であるselectとfilterの使い方を紹介します。
selectの実例
まずselectですが、データセットを含むオブジェクト(データフレーム)をdatafとすると、
dataf %>% dplyr::select(変数1, 変数2)
datafの中から変数1, 変数2だけを抽出することができます。例として、60件の賃貸物件の賃貸料rent等が含まれるデータdatafからrentとageを抽出したいとします。このとき、
dataf %>% dplyr::select(rent, age)
と入力すれば、rentとageだけを抽出できます。
さらにselectで限定した変数のみのデータフレームを作りたい場合には、
dataf2 <- dataf %>% dplyr::select(rent, age)
とすれば、rentとageのみが含まれるdataf2というデータフレームが作成されます。
filterの例
次にfilterの例をみましょう。
使い方は、
filter(条件式)
となります。たとえば駅まで交通機関でバスを利用する物件(バス利用所要時間bus>0)を抽出する場合、
たしかにbus=0の賃貸物件情報が表示されなくなりました。なお、条件式は2つ以上並べることもできます。たとえば、バスを利用しかつ築年数ageが10年以上のもの(bus>0&age>10)に限定したい結果が以下です。
ageが10を超え、busも0を超える物件に限定されていることが確認できます。
さらにfilterで限定した変数のみのデータフレームを作りたい場合には、
dataf3 <- dataf %>% dplyr::filter(bus>0&age>10)
とすれば、ageが10を超え、busも0を超える物件のみで構成されるdataf3というデータフレームが作成されます。
arrangeの例
最後に並び替えの関数arrageを紹介します。
dplyr::arrange(変数1)
で変数1の小さいほうから並び替えができます。以下の例では、駅からの徒歩分数walkが小さいほうから並べています。
大きいほうから並べる場合は、
dplyr::arrange(-変数1)
と入力します。以下の例ではwalkが大きいほうから並んでいることができます。
さらに、変数を2つ並べる、
dplyr::arrange(変数1, 変数2)
のように書くと、まず変数1で並び替え、変数1が同じ値をとるものについては変数2で並び替える、という意味になります。以下の例では、walkでまず並び替え、walkが同じ値の賃貸物件について床面積floorが小さい順に並び替えています。
本コラムは「Rによるデータ分析入門」のWEBサポートページとして作成されました。WEBサポートの一覧は以下を参照してください。
WEBサポートの一覧は以下を参照してください。