【理学療法士の"R"】雑多なデータベースから、必要な症例を抽出する
大学院で学んだ疫学・公衆衛生学の知見を元に健康的な社会をつくりたい、理学療法士のジローです。
疫学・公衆衛生学はともに、人の集団を評価する事が必要な学問です。
集団をどのように評価するかということで「統計学」とは切っても切り離せません。
最近は、高価な統計ソフトではなく、フリーでタウンロードできる統計ソフト"R"の使い方を解説しています。
導入障壁は高いのですが、慣れてくると出来ることが増えて、学術だけでなく、普段の業務の助けにもなってくれています。
何せ、無料ですから!
これから統計始めてみたい理学療法士は、是非チャレンジしてみて欲しいです。
今回は、前回の「データの概観」で使用したデータで、症例を絞って解析するときに、Rでどのように処理をするのか紹介します。
雑多なデータを渡されても大丈夫!
Rでデータクリーニングをしていきましょう。
■ 若年の男性のみ分析をしてみたい時
上司)若年男性の、リハビリの効果が知りたいから、まとめておいて!
こんな表を、急に手渡されてもなぁー。
一見しただけでは、全くわからない。
とりあえず、Rに放り込んでみる↓
今回は、通常の抽出と、tidyverseを使用した抽出の2種類のコードを紹介します。ちょっと書き方に癖があるんですよね。
私は、積極的にtidyverse (dplyer)に寄せていこうと頑張っています。
データクリーニングが、かなり早くなってきました!
tidyverse(タイディーバース)って何? ↓↓
■ subsetを使った症例抽出
■ dplyrを使った症例抽出
応用編:治療=1の女性を抽出したい
treat_w で、治療をした女性のみの新たなデータフレームができていますので、これを用いて分析を開始すれば、細かな分析ができます!
抽出されたデータが分析したいデータと合っているかは、再び概観を確認して、さっそく記述分析から開始していきましょう!
■ まとめ
Rはフリーの統計ソフトで、学会や論文で発表できるほどの綺麗なグラフの作成や、各種の検定、推定などの一般的な統計が可能です。
しかし、その前段階のデータクリーニングについても、Rで行えます。
データクリーニングには ”tidyverse”の使用がおすすめです。表の必要な部分だけを抽出したり、他の表と結合したりすることができます。
今回は、雑多なデータベースから、これから自分が行う解析に必要な症例だけを抽出する方法を共有しました。
一般的な書き方と、”dplyr”を使用した書き方では、書き方が違うのでそれぞれを紹介しました。
↓↓ dplyrの使い方入門はこれ一択
むかーし、昔の事じゃった。
統計とは一切関わりがない、ある理学療法士がおったそうな。
↓↓