R言語による統計解析~何はともあれgtsummaryをinstallする~
大学院入学を機にR言語による統計解析をスタートした。特にChatGPTの登場により、プログラミング素人の自分にも出来ることは飛躍的に増えた。しかしながら、「何をやりたいか」というスタートを伝えられないとChatGPTも適切な返答をしてくれない。どんな解析手法で進んでいけば金脈に当たるかわからないため、「何をやりたいか」を明示することは思いのほか難しい。その部分は、自分の力で試行錯誤し見つけていくしかないのだ。そんな時自分を助けてくれたパッケージがgtsummaryだった。
gtsummaryとは
gtsummaryとはR言語におけるパッケージの一種だ。様々なパッケージを触ってみたが、個人的第一位の使用頻度だ。以下はコードのサンプル。
library(gtsummary)
library(flextable)
dataset %>%
select(age, cancer) %>%
tbl_summary(by=cancer) %>%
add_p() %>%
bold_p() %>%
as_flex_table() %>%
save_as_pptx(path = "E:/癌有り無し.pptx")
これだけで、datasetのcancer(=0, 1の二値変数)にグループ分けした場合の統計解析を実施した上、パワポ形式に出力出来てしまうのだ。以下出力されたパワポのサンプル。
wordファイルでも出力できる。他の解析も出来る。というかよほど高度な解析でなければこれで全部出来る。とにかくこのパッケージを覚えてから、自分の解析は非常にやりやすくなった。
gtsummaryを触りながら学んだ探索的データ解析の大切さ
先述したように、datasetから論文に値する結果が出せるか=金脈に当てられるかが大切だ。研究を始めた時は、
t.test(dataset$age, dataset$Na)
こんな感じのコードを実行し、p値をメモする毎日だった。さすがに自分のようにドンくさいことをする方は少ないだろうが、とにかく何もわからない自分にはこれでも精いっぱいだった。それぞれの要素同士の比較検討をしていては、ある程度の規模のdatasetでは一生金脈を当てることは出来ないだろう。gtsummaryにより多数の要素を一気に比較検討することで、期せずして探索的データ解析を行っていたわけだ。ここで注目すべき要素をピックアップして解析を深めていく方向にシフトしたことが、自分にとってのターニングポイントだったと言える。
探索的データ解析用のパッケージはキチンと存在する
gtsummaryにより、探索的データ解析はもちろんのこと、論文や学会用table作成を短時間で実施出来るようになる。R言語での解析をスタートされる方は、何はともあれgtsummaryをインストールすることを強くおすすめしたい。もし、もっと専門的なパッケージが欲しいのであればDataExplorerかmodelStudioというパッケージが"ばえる"と感じる。特に後者に関しては日本語での情報が少なく、自分も勉強中だ。youtubeで親切な同士が解説してくれているので、それを視聴するのもおすすめだ。
パッケージで出来ることを楽しみながら、俯瞰的な視点を取り戻す
R言語によらないと思うが、一心不乱にスクリプトに向かっているとどんどん視野が狭くなるように感じる。いったんパソコンから離れるでもよいし、適当にgtsummaryにぶち込んでみるもよし、youtubeでかっこいいパッケージを探すでもよい。グラフィカルなtableやfigureが出力されながら探索的データ解析が出来れば、解析の楽しさも増してくると感じている。金脈探しの前にやることは、探索的データ解析を通じて各パッケージを楽しむことではなかろうか。
この記事が気に入ったらサポートをしてみませんか?