e-Stat使い方覚書き
ある統計情報を確認したいと思い、政府統計の総合窓口(e-Stat)を使用した。交通事故関連で使ったことは何度かあるところ、いつも使い方に悩んでしまうところがあり、使い方をまとめておくこととした。
過去にe-Statを使用した記事には、以下のものがある。このときは警察庁の統計表から直接リンクされていたため、e-Stat内を探し回ることはなかった。今回は探し回る想定の使い方をまとめている。
統計情報の確認方法
探している情報
今回探している情報は、脳血管疾患の年齢階級別の統計情報。
似た情報に、厚生労働省の「脳血管疾患患者数の状況」がある。この図表1-2-4の右側の図に近い。ただし、男女の区別は必要としていない。また、できるだけ新しい情報を使用したい。そのため、この元データとなる「患者調査」を参照するに至った。
厚生労働省の患者調査からを統計表一覧を経由して辿る手もある。しかし、e-Statを使って汎用的に目的の統計情報に到達する練習のつもりで、直接e-Statから辿ることとした。
統計情報の探し方
まずは政府統計の総合窓口(e-Stat)を開く。
「統計データを探す」内の「キーワード検索」を用いて、「患者調査」を検索する。
検索条件を満たす統計情報の件数は、画面左上に表示される。これが十分に少なければ、一覧して目的のものを探すのがいいだろう。「患者調査」による検索結果は6,656件と表示されており、一覧して探すには多い。もっと絞り込みを行うのがいいだろう。
画面左の「検索結果を絞り込み」を用いて、明らかに目的以外のものを除外するように、以下の絞り込み指定を行う。患者調査は3年ごとに行われるようだが、2023年の集計はまだのようだ。
「政府統計名」=「患者調査」
「調査年」=その時点での最新年(2020年)
「集計地域区分」=「全国」
「政府統計名=患者調査」「調査年=2020年」「集計地域区分=全国」により、356件まで絞り込めた。絞り込みに使われた条件は、左上の「選択条件」で確認できる。
目的の統計情報が「総患者数」という名前だと事前に分かっていれば、さらに以下の絞り込みを行うことができる。今回は分かっていなかったので、この絞り込みを事前に行っていない。
「表章分類」=「総患者数」
ある程度絞り込んだあと、目的の情報に辿り着くには、画面右上の「一覧形式で表示」で確認するのが分かりやすい。一覧形式で表示すると、それぞれの情報の概要が表示される。
この一覧の中から、目的に合っていると思われる情報を確認していくこととする。今回の目的は、「傷病分類」「年齢階級」で分かれている患者数だった。この目的に使えそうなデータセットがあるかを、概要説明を見ながら確認していく。
すると、「総患者数」と書かれた統計情報が、目的のものに近いことが分かる。説明の中に「総患者数、性・年齢階級×傷病分類別」とある。この段階で「表章分類」を絞り込んでみる。
「表章分類」の絞り込みを行うと、以下の2件が表示される。
この2件の違いは、傷病の分類粒度。36はより粗く、37はより細かく分類されている。どちらが今回の目的と合っているかは分からないため、両方を見比べることとする。
今回の情報には、統計表フォーマットに「DB」「API」が用意されている。「DB」は、e-Stat上で確認する形式。今回は「DB」を使用することとする。画面右の「DB」と書かれたリンクを辿ると、目的の情報に辿り着ける。
統計情報の表示カスタマイズ
情報は、縦軸が傷病分類、横軸が性別と年齢階級で、表形式で表示される。
ここで単位を確認しておきたい。表の左上にある「表章項目」に「総患者数【千人】」と記されている。千人単位のようだ。
今回の目的では、縦軸の多くは不要であり、横軸のうち男女別は不要。
これらは縦軸や横軸の表示を絞ることで対応できる。縦軸や横軸の表示を絞るには、画面左の「表示項目選択」を使用する。
横軸は、報告書36では「傷病分類_005」を、報告書37では「傷病小分類_29」を、右にある「項目を選択」によって絞り込める。
横軸は、「総数」「男」「女」のうち「総数」だけが必要。同じく「項目を選択」によって絞り込める。
報告書36の「傷病分類_005」で「循環器系の疾患(脳血管疾患)」を選ぶことで、今回の目的を満たせそうだ。報告書37の「傷病小分類_29」ではより細分化されている。「くも膜下出血」「脳内出血」「脳梗塞」「脳動脈硬化(症)」「その他の脳血管疾患」と細分化されていることが分かる。
このうち「くも膜下出血」「脳内出血」「脳梗塞」が調べたい主なものとなっている。これらは他に比べて致死性や緊急性が高いと思われる。「脳動脈硬化(症)」は、そこで日を置かずに対処しさえすれば、前3者に比べればそこまで緊急性は高くないと思われる。「くも膜下出血」「脳内出血」「脳梗塞」は緊急性が高い一方、これらの発症前に、めまいなどの自覚症状や検診結果を理由に受診して見つかった場合が「脳動脈硬化(症)」「その他」だろうと思う。
まずは報告書36で概要を調べたのち、報告書37で掘り下げるという調べ方が、求めているものとなる。
以降では、報告書36で調べていく。得られた情報は、以下のようになる。
画面左の「レイアウト設定」を使うと、より見やすくなる。
傷病分類と性別が固定的なため、表内に含めないようにしてみる。また、縦方向に年齢階級が表示される設定とした。
レイアウト調整後の表示結果は、以下のようになった。
表示結果を、右上のダウンロードボタンによりダウンロードできる。
ダウンロードの際には、ファイル形式などのパラメーターを指定できる。
「表示項目選択」を使わず「レイアウト設定」を使って絞り込み表示を行っている場合、「ダウンロード範囲」に「ページ上部の選択項目」を指定する必要がある。
今回は、「表示項目選択」で表示対象を絞り込んでいるため、「全データ」で構わない。
入手した統計情報の加工
患者統計の「不詳」数
年齢階級別の合計と総数が一致しない。「0歳」~「90歳以上」を合計すると1,739千人であり、「不詳」2千人を足しても、「総数」1,742人に1千人足りない。おそらく千人単位で集計していることによる誤差だろう。年齢階級別の合計と総数の差を、あらためて不詳と考えることにした。
人口統計
今回利用したかったのは、前記の情報に加えて、年齢階級別の人口構成と比率。これも同様に、e-Statを用いて入手してみる。途中経過は省略する。
前記の患者統計の集計年月は2020年だった。2020年のうち、いつ時点のものか分からなかった。そこで人口統計には、統計の一番古い日付、2020年10月1日時点のものを使用することとした。加工結果は以下となる。患者統計と同様、千人単位となっている。
こちらも、年齢階級別の合計と総数が一致しない。人口の年齢階級別合計は126,144千人であり、総数に2千人足りない。この差を、あらためて不詳と考えることにした。
人口統計と患者統計の年齢階級の差
人口統計と患者統計で年齢階級が若干異なる。両者を揃える必要がある。
患者統計の小分類
患者統計にはここまで、報告書36を使用してきた。傷病分類が細分化されている報告書37の情報も横並びにしてみる。
加工
上記含めいくつかの加工を施すと、以下の結果が得られる。
最後に
年齢階級別の人口と患者数。これは過去に一度まとめたことがある。ちょうどコロナ禍のこと。そのときの統計の元となる数値を、どこから引っ張ってきたものか覚えていない。今回、e-Statによる最新情報を使ってまとめなおすことができた。
こうして得られた情報に対して思うところは、機会があれば別の記事に記そうと思っている。