産業保健職としてデータ分析を強みとするためのロードマップ
2024年アドベントカレンダーに気軽に登録してしまって、ネタを考えた末に、データ分析を強みとする産業保健職が増えてほしい!という思いから、こんなネタにしてみました。データに強くなるためにはどうすればよいかについての私見をだらだらと書いてみます。
2024年の締めくくりに、だれかの役に立つ記事であればよいなと思います。
尚、本記事に掲載しているリンクはアフェリエイトや著者のCOIあり(私がが関わっている・作っている)ものもあるため、その点、ご留意ください。
誰がこの記事をかいているか?
中身を知っている関係者からは多分、「がく先生だったら、まあデータ分析得意って言っても許されるよね」とお許しいただける程度にはデータの取り扱いには慣れているはずです。一応、現在の私のスキルを棚卸しておくと、
プログラミングスキル
R言語、JavaScript、GAS、VBA、C#でそこそこ動く何かを作れる。STATAも触れます。
SQLも基本的な操作なら可能。
HTML+CSS+JSで業務アプリを簡単なものなら作成できる
R言語であればそこそこ複雑なダッシュボードアプリを作成可
データ関連の職歴
大学発医療ビッグデータベンチャーでデータ加工、レポート作成システムの作成の仕事をしていた
大手労働衛生機関のデータクレンジングをしていた
となり、妻から部屋に置いてある本を見て、「あなたは本当に医療職なの?」と真顔で言われたことがあります。(各プログラミング言語、統計、疫学、医学の本が同じ比率で置いてあるだけなのに!!)
ということで、データに強くなりたい産業保健職の方、ちょっと見ていっていただけると嬉しく思います。
データ分析を「強み」とするとは?
一口にデータ分析と言っても、その内容は様々です。医療系だと、統計分析ができること=データに強いと考える方も多いかもしれません。ただ、データ分析と一言で言っても、大まかに、次のような手順がデータに基づく意思決定には必要と考えます。
データの入力/取得(データを集めて、取り込む)
データの加工(後の工程に進むためにデータをきれいにする)
データの可視化(グラフ作ったり、集計したり)
データの分析(統計分析などはここに入ります)
データのプレゼンテーション(レポート作ったり、ダッシュボード作ったり)
データの解釈と意思決定(最終的には現実世界に反映しないといけません)
これらのステップ一つ一つに習熟しなければいけないところが多々あり、産業保健実務で「データに強い」というためには、すべてのステップをそれなりにできるようになる必要があると個人的には考えています。
(尚、データ分析を本業としている会社だったりすると、それぞれのステップ毎に専門家がいたりしますが、企業の産業保健としてそのような体制は夢物語なので、全部できるようになるか、少なくとも、社内でそういう部門があれば、適切にコミュニケーションできるようになる必要があります。)
この記事では、それぞれのステップについて、最短距離でそこそこできるようになるために必要な考え方や勉強方法について記載していきます。
(注:本記事の教科書やリンク先はすべてアフェリエイトや筆者のCOIがあるものとなりますので、その点はご理解いただけますと幸いです。)
データの入力/取得について
データを分析するために、最も大切な部分がこの部分かもしれません。GIGO(Garbage In Garbage Out;ゴミを入れたらゴミが出てくる)という言葉があるのですが、ちゃんとしたデータを取得して分析のステップに進まないと、間違った結果が約束された分析になってしまいます。
ちゃんとしたデータを入手するためには、データの入手前にどのようなデータを入手するかをきちんと計画する必要があります。この部分ができるようになるための基本的な考え方は、疫学の教科書を読みましょう。本格的な教科書からはじめるのもよいですが、個人的には次のような教科書(の疫学やデータのとりあつかいを解説している部分)が、初学者が最初に読むにはとっつきやすくてお勧めだと考えます:
他に、産業保健をやっていると従業員からアンケートを取ることがあるかもしれません。その場合は、質問紙の作り方についての基本的な理解をしてからやる方が良いと思います。そのためには、次のような教科書もおすすめです。特に最初の数章はアンケート調査をするときには知っておくとかなり良いと思います。
一番大切な部分と言いつつ、実務では自由にデータを集められる機会はそれほどやってこないことも多いので、後回しになりやすい部分かもしれません。筆者もこの部分は勉強中です。
具体例を考えると、健康診断データの収集方法について、健診機関からどのようなCSVを出してもらうかなどを相談したり、健康経営調査にしれっと他に調べたい項目を入れ込んだりするようなことが考えられます。他にも従業員の勤務時間のデータ分析したければ社内のIT部門の人にデータを出してもらうように交渉したり、偉い人に根回ししたりなども必要です。
そう意味では、データの収集は、知識の他に、コミュニケーション能力や交渉能力を含めてかなり幅広いスキルが必要な部分となるかもしれません。
データの加工(前処理)
筆者が一番得意とする部分が、取得したデータを加工する工程です。別名、前処理と呼ばれている工程です。どれほどデータを豊富に持っていても、分析ができる形にデータを加工することなしにデータ分析はできません。前処理が実にデータ分析工程の8割を占めているといわれています。
一般的にデータの加工をするツールと聞いて、産業保健職が思い浮かべるのがエクセルです。エクセルを使いこなせれば、どんな複雑な前処理もできる!と自信をもっているそこのあなた、残念ながら大間違いです。
筆者も、昔はエクセルとVBA(マクロ)を使いこなせば、どんなデータも自由自在と思っていた時期がありました。ただ、残念ながら対象とするデータが膨れ上がると、エクセルではどうしようもない時が来ます。筆者は、労働衛生機関で数十万人の健康診断データを取り扱う機会をキャリアの早期で経験できたことが幸運でした。数百メガバイトのデータをエクセルで処理しようとするところを想像してみてください。一つのデータ加工を行うだけで数十分。途中で落ちたら全部やり直し。何ならたまにデータが壊れる。のような経験を積みました(読者の皆さんには経験してほしくないです)。学会発表の提出期限ぎりぎり、残り時間わずかにエクセルが落ちてしまったときに、二度と分析をエクセルでやるまいと誓ったのでした。
(もちろん、数百人程度のデータであれば、エクセルで全く問題ありません。データが重いと感じない大きさ、適切なPCスペックがあれば、エクセルは手軽で、最も良いツールです。)
エクセルで加工する場合に学ぶとよいツール
データの前処理を行う場合に、エクセルでの作業を行う場合は、次の機能について勉強することを強くお勧めします。
Power Query
Power Queryは「再現可能な前処理」をエクセルで実施するためには必須機能です。再現可能な前処理とは、「同じデータから同じ結果を出力する」とイメージしてください。例えば、「3年前に計算したA工場の従業員のKPI指標、再度計算したらなぜか同じ結果にならない・・・」のような状況に遭遇したことはありませんか?同じデータを利用しているはずなのに、集計する人が違うと、微妙に違う結果になってしまう場合は、そのデータ加工は再現可能なものではありません。
Power Queryは、エクセルでデータ加工の工程を記載しておくことで、同じデータから同じ結果にたどり着くことができるツールです。再現可能な前処理や集計をPower Queryでできるようになると、毎年計算している指標や数値をボタン一つで実施できるようになります。
多くの産業保健職、特に産業看護職はかなりの時間をデータから数値の集計に費やしているのではないでしょうか?そうであれば、Power Queryをマスターすれば、これまで毎年十数時間の作業時間だったものがワンクリックで実現できるようになります。
エクセルでは困るデータを加工する必要がある場合
Power Queryはよいツールですが、個人的には使いやすいとは思いません。どうせ勉強するのであればより自由にデータ加工と集計ができるR言語(とR言語を便利に利用できるツール、RStudio)を利用することをお勧めいたします。
R言語は統計処理・データ加工・可視化に強みを持つプログラミング言語です。無料で利用することができるため、予算申請などを行わなくても、IT部門の許可を得られれば利用できることが多く、ポータブルスキルとしてもおすすめです。
この記事ではR言語の使い方などについては記載しませんが、教科書であれば、「Rユーザのための~」は基本的な使い方が丁寧に記載されており、おすすめです。「Rでらくらく~」はデータ加工についての記載がされています。
他にも、オンラインコースだと、
などをお勧めします。
周りで使いこなしていて、教えてくれそうな人がいれば聞いてみるのが一番の近道かもしれません。
他に、R言語と似たような立ち位置で、より幅広い分野で使われている言語にPython(パイソン)があります。こちらも使いこなせるとかなり便利なツールです。ただ、後の統計解析などを含めて考えると、プログラマーになりたい、AIの開発がやりたいなど、別の目標がないのであれば、通常の産業保健業務やデータ分析の範囲ではR言語を最初は選んでおく方が無難だと考えます。
データの可視化と分析
可視化について
可視化は、具体的にはグラフを作成するイメージです。こちらもエクセルでグラフの作成をする方法が一般的ですが、R言語でプログラム的に作成することが可能です。慣れると、かなり楽にグラフが作れるようになるため、おすすめです。
Rで可視化に特化した本としては、以下のような書籍を見ていただくと、色々な可能性が見えてくると思います。
エクセルでの分析について
いわゆる統計分析のイメージです。多くの産業保健職にとって、会社から求められることは単純集計か、クロス集計だと考えられるため、その用途であればエクセルのピボットテーブル機能を使いこなせればそれで事足ります。
エクセルでピボットテーブル機能を利用した集計の実際について、産業衛生学会の会員であれば、以下のページの動画(上から3つ目)も実例を見るという点では良いかもしれません。
配信動画 | 会員専用サイト 日本産業衛生学会(JSOH)|産業衛生|産業保健|
他に、YouTubeなどでピボットテーブルの解説動画はたくさんあるので、探してみてもよいと思います。
統計分析(統計ソフト)について
単純集計やクロス集計以上の分析を行おうとする場合は、統計ソフトを利用することになります。有名なソフトとしてはSAS、STATA、SPSSなどがあり、大学で研究をしていた方の場合はどれかに触ったことがあるかもしれません。個人的にはSTATAの経験が多く、良いソフトウェアだと考えます。
これらのソフトウェア、企業で購入する場合に値段がかなり高く(おおよそ2024年12月時点でいずれも30万~100万円超)、よほど理解のある企業でなければ統計ソフトにこの額の予算を投じてくれる可能性は乏しいと考えます。
そのため、現実的には無料で利用できる統計ソフトを利用することになります。そこで、R言語です。
R言語はSTATAなどに搭載されている統計分析の機能がほぼ網羅されています。なんなら、世界中の研究者が独自機能を日々追加してくれているため、商用のソフトよりできることが多かったりします。筆者も、最初はプロペンシティスコアマッチングという方法をSTATAでやろうとして、できなかったことから、Rの勉強をはじめました(今のSTATAには搭載されています)。
Rで統計分析を行う場合は、先にご紹介したRStudioを組み合わせて、プログラムの入力することを主体で行う場合と、EZRというソフトと組み合わせてマウス操作で操作を行う場合の二通りが考えられます。
分析さえできればOKなのであれば、EZRでもよいですが、RStudioからR言語を操作できるようになるとできることの幅が広がるため、もし本腰をいれて勉強しようという方であればRStudioを利用して、R言語を操作する方法をお勧めします。
分析方法は何を勉強すればよいか?
これから分析手法を勉強する方は、以下の3つの手法を使えるようになることを目指すことをまずの目標としていただくとよいと考えます
重回帰分析
ロジスティック回帰分析
Cox比例ハザードモデルによる多変量解析
これ以外の〇〇検定などは、最初は脇においておきましょう。産業保健の分野で出てくるデータは多変量解析と呼ばれる、背景因子を調整する分析手法が必要となることが圧倒的に多いので、まずは上の3つの分析方法の理解をおすすめします。
「R言語 重回帰分析」、「R言語 ロジスティック回帰分析」などと検索すると記事がたくさん出てくるので、いろいろと読みながらある程度理解したうえで教科書などに手をだすとよいと考えます。
これらの手法がなぜ大切なのかは、次の筆者が書いた記事の、調整を視覚的に理解するは、個人的におすすめしますので、もしお時間があれば読んでみてください。
(以下、筆者のNOTEの記事です)
産業保健職のための疫学・統計学‐データの分析手法:重回帰分析-1データに線を引こう!|がく
産業保健職のための疫学・統計学‐データの分析手法:重回帰分析-2調整を視覚的に理解する|がく
産業保健職のための疫学・統計学‐データの分析手法:重回帰分析-3重回帰分析の結果を理解する1(推定値、t値、p値)|がく
産業保健職のための疫学・統計学‐データの分析手法:重回帰分析-3重回帰分析の結果を理解する2(標準誤差、95%信頼区間)|がく
産業保健職のための疫学・統計学‐データの分析手法:重回帰分析-3重回帰分析の結果を理解する3(決定係数)|がく
(他の分析手法についてもそのうち書くかもしれません)
プレゼンテーション・意思決定
統計分析までできれば、あとはその結果を偉い人に提示して意思決定を行う段階になります。ここのところは、筆者も勉強中かつ、試行錯誤を行っている部分になりますので、学会とかでぜひ情報交換をお願いします。
プレゼンテーション
プレゼンテーションはデータから得た知見を意思決定者に提示する段階です。学会発表なども広い意味ではプレゼンテーションに該当すると考えます。
プレゼンテーション、見せ方と内容の二つの面で勉強していくことが良いと考えます。内容がすごく良くても、見せ方が悪いと意図していたことが伝わらない場合もあります。見せ方はデザインセンスもあるかもしれませんが、デザインセンスが皆無な私でも、次のような資料を参考にして作成するだけでそこそこ見れる内容のプレゼンテーションを作成することができます。少し勉強していただいても良いかもしれません。
教科書としては、伝わるデザインのサイトの作者が出している次の書籍は何度も私は目を通しています。
意思決定
データを集めて、加工して、分析して、プレゼンテーションすることの最終目標は、ステークホルダーに意思決定をしてもらうことです。ステークホルダーは、産業保健の場合は個々の従業員さんであったり、会社の施策を決める偉い人だったりします。
データを集める段階で根回しとかコミュニケーション力が重要と書きましたが、意思決定の段階でも同じく、重要になります。頑張ってデータ分析してきても、意思決定者に影響を与えられなければ、その効果は限定的、あるいは頑張りが無駄になってしまうため、このポイントもしっかりと意識しておきたいです。
ここで大切なことは、データ分析した結果が間違っていないかをきちんと判断できる医学・疫学・統計学の知識で検証したうえで、説得を試みるという順番です。ステークホルダーに意思決定してもらうようにデータで説得するために必要な工程をこの記事では記載してきました。ただ、もしデータ分析の結果が間違えていたらどうなるでしょうか?
誤ったデータ分析結果で誤った意思決定をさせることは、医療に関わる世界では特に慎重になる必要があると考えます。例えば、データ分析するとインフルエンザワクチンを接種した人の方が休暇取得日数が多いという結果がでた場合に何を考えますか?ここで、ワクチンを接種したら、インフルエンザに罹患しやすくなるから休みが増える→会社の施策としてワクチン接種に反対しよう。などとしてしまうケースです。
ワクチンと言えば、HPVワクチンも、極少数の事例で、十分な因果関係を検証しないまま、マスメディアが全国民にプレゼンテーションをした結果、公衆衛生上の大失敗につながりました。
データから誤った結論にたどり着く可能性は常にあるため、医学の常識、疫学的な考え方、統計分析は正しく適応できているか?を意識できるように勉強する必要があると考えます。
基本的な疫学の教科書を勉強すれば、大きな間違いをすることは減ると考えるため、以下のような教科書の研究デザイン・バイアスについて記載されているところを読んでみることをお勧めします。(臨床研究とついていますが、疫学の入門にすごくおすすめです)
まとめ
データ分析を強みとするために、取得⇒加工⇒可視化・分析⇒プレゼンテーション・意思決定について駆け足で記事にしてみました。これらのステップの中心となるものは、
産業保健と医学の知識(ドメイン知識)
疫学と統計学の知識
R言語などの再現可能なデータ分析を可能にする技術(スキル)
だと考えます。
筆者は、ドメイン知識は普段の業務の中で日々学びつつ、スキル習得の必要性が出たため、勉強をはじめて、その後に疫学・統計学の知識を1つ1つ勉強していくという道筋で現在の状態になっています。目の前のデータを何とかしたい、そこから従業員に還元したいという気持ちを形にしていく中でデータ分析をそこそこ強みとできていると考えています。
データ分析は、産業保健の現場で大きな力を発揮します。この記事が、データ分析スキルを身につけて、従業員の健康を守り、企業の成長に貢献するための役に立てばうれしく思います。
では、2024年も残すところわずかですが、良いお年を。2025年度もよろしくお願い申し上げます(仙台・徳島の産業衛生学会に行く予定ですので、そこでお会いしましょう!!)