【JKI】033_Medical_Procedure_Prices_02_データ比較
【JKI_033】課題を再確認
上記の記事の続きの回なので、課題の詳細は省略します。
上記の目的のため、カイザー財団病院グループの医療費データを集めてくるところまで前回で扱いました。
そこで次はサター病院グループについて同様にデータを集計します。
WFは既に公開しています。
【KNIMEでのデータ処理紹介_02】
【ETL③】サター病院グループのExcel群
こちらも大きな医療機関グループです。
WF内のdataフォルダ内に下記の14フォルダに分かれてExcelファイルが格納されており、各フォルダ内に一つのExcelファイルがあり、問題文にヒントが書かれていた通り
「関連するExcelファイルの名前に「...CDM_All...」とあります。」
そのファイルを試しに一つ開きますと、必要な料金の一覧表は「...AB 1045 Form」と命名されたシートに記載されているようです。
ただし、まれにシート名にミスタイプがあったりするので要注意ですね。命名規則の徹底、私の組織でもたまにエラー要因になります。
このように、各ファイルを開いては観察し、自動化のルールを策定しました。
今回多少の揺らぎはあったものの、このAB1045フォームやCPT_CodeなるIDのルールが制定してあったからこそ自動化が可能なわけで、アメリカの医療行政のための組織的なルール策定や整備をして下さっていることが素晴らしいと思っています。
KNIMEでのExcelファイルリスト作成:
カイザー財団病院グループの時と同様ですが、こちらは前回に対応したような一時ファイルはなかったのでRow Filterノード一つで対応できました。
前回分はExcelを開いているときにフォルダを複製してしまった私の人為的ミスなどで一時ファイルができていたのかも。本来は要らない処理のように思います。
設定:
結果:
上記の14のExcelファイルが今回の集計対象となります。
【ETL➃】各Excelから1種のデータシートを選んでデータ抽出
今回処理する14ファイル (Excel workbook)は全て4つのシート (worksheet)を持ち、その中でAB 1045という定型のシートから必要な情報が取れます。前回のカイザー財団病院グループ【ETL②】とは別のローカルルールで統一されているので、サター病院グループ用にWFをカスタマイズしました。
設定:サター病院グループ用に改変した部分のみ抜粋
設定:
結果:
結果は14回のループの最後の回の結果を以下に。
Pathは各Excelを相対パスで指定、Sheetは読み込むシートの指定に使います。
読み込む範囲が前回の【ETL②】と違うので、A5からC50のセルを読み込む設定に変えています。
結果:
結果は14回のループの最後の回の結果を以下に。
Row3は不要な行なので、後で除去しています。
ループ2種実行結果:
14の病院の計473件の医療費情報が得られました。
【集計結果を比較】
本来の解答用の解析とは別に、ここまででちゃんとデータが取ってこれているかなど検証をしました。Value Counterで下記のような件数確認などしてみました。
設定:CPT_Code別に数えあげると、どんな医療行為が多く実施されているかなど見て取れます。
結果:
(中略)
14病院で1件しか報告がない医療行為も相当数あるのですが、こちらは価格分布を知ることはできないです。
カイザー財団病院グループ分も見ると、病院グループごとで調査の方針が違いそうだなと分かったりします。
調査対象の医療行為を調査前に厳格に指定したであろうと推察されます。
リアルデータだと調査条件の揺らぎも得られるデータに大きく影響しているのでしょう。興味深かったので紹介まで。
【ETL⑤】グループ別に解析し、比較用にデータ整形
上図の通り、2つのグループの集計結果別にGroupByで解析し、その結果をTable Viewで並べて表示するため、いくつかのノードで処理しています。
以下設定を見ていきましょう。サター病院グループのデータ処理部分だけ設定を以下に示します。カイザー財団病院グループ分も同様です。
設定:
【ETL⑥】可視化して見比べる
設定:
結果:
「病院ごとに価格のばらつきが大きい(統計学でいうところの標準偏差が高い)上位5つの医療行為」を知ることが目的ということで、上図の5つがカイザー財団病院グループでの上位に挙がっています。
平均価格(Mean)が高いと標準偏差(SD)も大きく出がちですね。変動係数ではなくていいんかな?
最高値(Max)と最安値(Min)の価格幅が大きいと人は格差を感じやすいのでSDでいいだろうと納得しました。
次に病院グループ間での比較もしてみます。
データ数(Count)も示しているので、左右の2グループで母集団の数がけた違いに異なることは分かりますのでなかなか比較してどうかとも思いますが、仮にサター病院グループのSDが大きい順にソートしなおすと下図の結果となります。
なかなかに興味深い違いが見えてきます。サター病院グループ内では数万ドルの価格幅がある医療行為がカイザー財団病院グループではささやかな価格差しか無かったりしています。
また、カイザー財団病院グループの上位5位のうち1件しか一致していません。
医療機関ごとの設備や技術レベルの違いもあるのでしょうから、安ければいいと言うものでもないので単純ではないものの、確かに問題文に書かれていた通り「情報通のアメリカ人はかなりお得」なのだろうと感じました。
以上で解答を終えることにします。
リアルデータの解析体験、なかなかに骨が折れたのですが興味深かったです。
おまけ:
【情報の功罪を想う】
日本では健康保険に入っている人がほとんどと思って暮らしていると、上記の記事などは驚きです。
知識として知ってはいても、今回のように実データも触ってみることでより実感されるようになりました。
また、今回のサンプルデータはもともと平均価格しか示されていないです。
症例ごとに必要な治療方法も異なるでしょうから、個別の医療費はさらにばらつくであろうと思われます。
まあ、日本にも自由診療は数多くあります。特に美を追求したりすると青天井ですね。情弱では安らかには生きられないなと思う一方で、むやみに全てを知ろうとしないことで得られる心の豊かさもあるかもなと思います。
誰よりも得であろうとすれば、今回の課題のようにあふれる情報の仕分けや吟味に忙殺されます。
一方で、「知足」すなわち自分の持ち分に満足するという生き方もまた幸せかもしれないですね。そんなことまで思いを馳せた今回の課題でした。
あっこれは「蛇足」かな。
記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。