カルテのデータから図表をつくる
カルテから対象の人のプロフィールや測定データ、検査データなどをひっぱってきます。とりあえず表をつくるのですが・・・。
まずは背景情報からTableOneというものを作ります。年齢とか性別とかプロフィールの載っているやつです。大体Table.1を見たらそうなっています。
全体 A群 B群 SMD
年齢 a(b). c(d). e(f). 0.01
性別. a1(b1). c1(d1). e1(f1). 0.11
属性. a2(b2). c2(d2). e2(f2). 0.22
職業. a3(b3). c3(d3). e3(f3). 0.16
魔法. a4(b4). c4(d4). e4(f4). 0.90
攻撃. a5(b5). c5(d5). e5(f5). 0.41
防御. a6(b6). c6(d6). e6(f6). 0.53
SMDのところはp値を出していることもあります。これをもとに比較するものを考えます。SMDだと0.2以下はそんなに差がないと考えるようですがこれもデータの性質を詰めていく必要があります。
そして図表はとても大事です。母集団の分布がわかりやすかったりします。逆に母集団の分布が大きく違っても(平均±標準偏差)が似たり寄ったりになったりします。最初は何のことか分かりませんでしたが実際に母集団を意識してまとめ始めると分かりました。
詳しくはこちら→論文の図は大事だぞ!
カルテから後ろ向き研究をするときは全数調査でなく抜き取り標本であるため正規分布に則ったデータは少なく(理論上は極限を取ると正規分)、平均値ではなく中央値、範囲を決めるには標準偏差ではなく四分位範囲を使います。
さて、正規分布にのらなそうなグラフは一般的な棒グラフではなく、母集団の偏りがイメージしにくいのでヒストグラムや箱ひげ図を使います。正規分布なら形は決まっているので棒グラフでよいわけです。真ん中が飛び出てて両端がゆるやかに収束する。正規分布になりやすいようなランダムな乱数を取ってきてもちょこっと偏りがあります。2種類をRでランダムに出力しました。数を変えてやるだけで少し分布図の顔つきが変わります。
ヒストグラムの出力は以下のコマンドで出せます
x <- (a1,a2,a3,....,ax)
hist(x)
今回はランダム変数をrnormで作成したので
x <- rnorm(1000)
hist(x)
次に、もう一つの分布yも作って重ねます
y <- rnorm(8)
hist(y, color="red", add=T)
これで以下の図になります。colorで色の指定、add=T で重ね書きです。
そして下が箱ひげ図です。ヒストグラムの形より分布の広がりが分かりやすくなります。excelから出力すると変になるのでRで描画しましたやり方はこちら。同じ分布からランダムに変数を取ってきました(抜き取り標本)。
真ん中の太い線が中央値で、その両隣が第一四分位(25%の値)と第三四分位(75%の値)、両端は最大値と最小値になりますが外れ値もあるので上の図では外れ値は丸い値が浮いてます。これだけだとピンと来ませんね。なので・・・。それぞれの要素が見えるようにしてみますと・・・。
やややりすぎちまったかんがあります。1は1000個、2は8個のサンプルが広がっている数直線の25%-75%のところが頻度が多いことが分かります。丸が横に広がっているのは重なって分からなくなるからです。
カルテから引っ張ってきた数値はいつか正規分布にのるのですがあくまで全体の一部ということを意識しないといけません。分布の何を見たいかで図を使い分けます。他にも適切な図があるかもしれませんがよく見られる図を紹介しました。