見出し画像

PREVENT データサイエンス部_2023年振り返り

恒例となりましたPREVENT_データサイエンス部の年末振り返り記事です。
出来るだけ具体的(詳細については言えないところも多々ありますが)に、ヘルスケアテックベンチャーのデータサイエンス部が何を目指して、何を達成できたかをまとめていきます。

過去記事
- 立ち上げ時期
- 2022年振り返り

PREVENTの事業進捗については、ホームページのニュースをご覧ください。
執筆担当はトッティこと戸田です。よろしくお願いします。


はじめに

PREVENTでは、事業年度の始まりが7月なので、年末の振り返りは前事業年度の3Qから現在の2Qまでの期間をカバーします。

1月から6月までの上半期(事業年度2023年の3Qから4Qに相当)では、『データに基づいた意思決定の促進』『分析の民主化運動』に対する取り組みの達成状況を振り返ります。具体的には、『データに基づいた意思決定の促進』では、データを活用して意思決定プロセスを強化する取り組みに焦点を当て、『分析の民主化運動』では、分析能力を多くのメンバーに普及させる施策に取り組みました。

7月から12月までの下半期(事業年度2024年の1Qから2Qに相当)では、『データ品質管理』『インスティチューショナルメモリの整理』の目標に向けた進捗状況を振り返ります。具体的には、『データ品質管理』では、データの品質向上と精度確保に向けた施策に焦点を当て、『インスティチューショナルメモリの整理』では、組織内の知識と情報の整理・アクセス改善に取り組んでいます。

それでは、張り切って振り返っていきましょう!

上半期の振り返り

今年の上半期(事業年度2023年3~4Q)を振り返ります!

事業年度2023年1~4Qの大目標

事業年度2023年1Qの全社会議で発表した目標は以下の通りです。

1. データインフォームドな意思決定の促進
2. 分析の民主化運動

他の部門からはこれらの目標が抽象的で理解しづらいという声も寄せられましたが、データサイエンス部内ではこれらのフレーズが部の方針を明確に表現していると感じています。

1番目の目標については、データを活用してPDCA(計画・実行・評価・改善)サイクルを効果的に回すことを意味します。つまり、データを使って戦略や意思決定を強化するための取り組みを積極的に実施できる体制づくり。

2番目の目標については、データサイエンス部以外の部門でも社内データを扱えるようにすることを指します。これはデータの活用を全社的な取り組みにする狙いです。

以下に、これらの目標を具体的に実現するために行ったアクションをまとめます。

データカタログの整備

統合分析基盤(よろずや)の整備から約3ヶ月ほどでデータエンジニアが爆速で整備+立ち上げをしてくれました。
詳細はこちらまとまってます。

データカタログ一覧(notion)とカタログ内容(PipRider)

ダッシュボードおよび社内SQL環境整備

社内データを使いたい時にデータサイエンス部に依頼していたのでは、全く民主化ではありません。そこで、ダッシュボードツール+SQL環境をApache Supersetにて構築しました。加えて、よろずや塾という社内向けのSQL勉強会を実施しました。
ふと思いついた時に集計してみる、この感覚って数値的にはどうなのかな、など仮説や疑問についてデータを見にいくというハードルを下げることができたのではないかと感じています。もちろん、ダッシュボード作成や分析設計についてはデータサイエンス部が責任を持ってサポートしていますが、こういったデータで裏をとりにいくことが全社員できるようになることでデータ活用が一層進むと実感しました。

社内活用が進むにつれて・・・無数に試されたSQLを社内知見として整理したいという課題が浮上してきました。これは、下半期の目標に関連します。

よろずや塾の様子。

実績の可視化

今までできていなかったわけではないのですが、定期的にモニターするには労力がかかるものになっていました。特に重症化予防事業を実施した後の長期経過を追従することが難しい。
データサイエンス部のみでは解決しないコレクション側の課題です。継続的にデータを提供いただけることのメリットをお伝えできるようシンプルにメッセージ性のある可視化へと進化させていきました。データアナリストがメインとなって営業部へのヒアリングも実施して、整備していきました。
レポートの見直しを通して、データサイエンス部としてストーリーテリングを意識した可視化スキルが向上したと感じています。

アドホック解析

医療領域で集められる診療行為や調薬情報を「リアルワールドデータ(RWD)」と呼びます。PREVENTでは事業内で取得したデータを匿名加工し、ヘルスケア領域の発展を目的とした保健事業や疫学調査に活用しています。前年構築した匿名化データベース(Prevent Medical Data Base; PMDB)から、さまざまな新しいインサイトを得ることができました。

これらの成果は、担当者個々のスキルに大きく依存しています。データサイエンス部門として、1. アドホック解析に集中できる環境の構築、2. 後進の育成に焦点を当て、さらに優れた解析環境の実現を目指していきたいです。

ルーティン解析の効率化

重症化予防事業では、対象者を特定し、彼らに案内を送ることでMystarプログラムを開始します。このプログラムでは、対象者リストと一緒にMyscopeレポートも提出しています。対象者リストには、PREVENTモデルに基づいて計算された発症リスクランクが付与されています。ただリスクランクのみのリストを提供すると、全体の状況が把握しにくいため、クライアントへの説明資料としてMyscopeレポートも一緒に納品しています。
クライアントからデータを受け取り、それをクレンジングして、プログラム対象者リストとMyscopeレポートを作成するまでの作業時間を約半分に短縮しました。具体的な方法は記載できませんが、データクレンジングとデータウェアハウスの整備によりこれを実現しました。
このようなルーティン作業の効率化により、ミスの減少とアドホック解析への注力が可能になりました。地味な作業かもしれませんが、そのインパクト計り知れません。

その他

◆ 輪読会
- A/Bテスト実践ガイド

下半期の振り返り

残り下半期の振り返りです!

事業年度2024年1~4Qの大目標

事業年度2024年1Qの全社会議で発表した目標は以下の項目です。

  1. データ品質管理

  2. インスティチューショナルメモリの整理

これらの目標も、カタカナで表現されていることから、何を指しているのか理解しにくいという声がありました。
しかし、実際の意図は非常にシンプルです。データが増えて、そのデータを『使用』できるようになったため、今後はデータを『活用』するためにデータマネジメントに重点を置くということです。具体的には、データ品質を向上させ、組織内の知識や情報を整理して効果的に活用する取り組みを強化していきたいという目標です。

全社会議資料 2023.6.29

データマネジメント

これまでの取り組みでは、データを主に「使用」することに焦点を当ててきました。まだ完全には整備されていない部分もありますが、データはかなり効果的に使えるようになっています。しかし、目指すべきはデータを単に使用するのではなく、「活用」することです。これを実現するためには、データマネジメントを強化することが不可欠です。そのため、データサイエンス部ではDAMA-DMBOKを熟読し、アセスメントを実施することに決めました。今期はアセスメントと行動計画立案までを実施しました。

全社会議資料2023.9.28

アセスメントで明らかになった課題には、「全社的なガバナンスの強化」、「データベースの可視化とアーキテクチャの整備」、そして「ドキュメントの整理」がありました。

全社的なガバナンス:これは会社全体の取り組みですが、データサイエンス部から始めています。重要性を訴え、マネジメント体制の提案やアセスメントレポートを定期的に提出することで、徐々に全社的な体制を構築していきたいと考えています。
データベースの可視化とアーキテクチャ:dbtの導入により、データベースの可視化はかなり進んでいます。しかし、セキュリティアーキテクチャやインフラストラクチャの可視化と情報整理はまだ進んでいません。この辺りは開発部を巻き込んで進めていきたいです。
ドキュメントの整備:現在、ドキュメントはバラバラに点在しています。これを解決するために、Notionを使用して知識の蓄積と共有を進めていきます。

このアセスメントを通じて、課題とその対策案を立案することができました。これらのアクションと定期的な再評価を含むアセスメント体制を運用していく準備が整いました。

効果指標の拡大

ここについては、具体的な進捗状況を詳細に報告することが難しいため、進捗を大まかにまとめます。これは、おそらくデータサイエンス(DS)の分野ではよくあることですが、DS部門の活動の多くは具体的に公開できない内容が多いですね・・・(笑)。
これまでの強みは演繹的推論にありました。これは、私たちのサービスが医療分野に関連しており、専門知識を持つ人材が豊富だったことが大きな理由です。それに加えて、今期からは帰納的なアプローチにチャレンジすることができてきました。これにより、「効果」に対してのオリジナルの指標や見方を提案することができてきました。
皆さん大好きな機械学習を使ったレコメンドシステムとかが朧げながら見えてきました。MLOpsの進捗とかも来年書けるといいなと思っています。
ちょっとあまりにも抽象的なので意味があるようでないイラストを載せてお茶を濁して終わりたいと思います。

全社会議資料2023.12.28

アドホック解析

下半期は、特にEBPM(エビデンス・ベースト・ポリシー・メイキング。 証拠に基づく政策立案)企画チームからの案件に対応しました。具体的にはデータヘルス計画の作成や健康増進施策の評価などがあげられます。

◆ 奈良県川西町のフレイル予防事業評価
◆ 愛知県豊田市の医療データ分析
長野県の高血圧管理不良者支援事業

他にもまだ公表されていない案件を複数対応しており、自治体におけるヘルスケア領域のデータ活用のお手伝いができました。

さらには、RWD解析として
◆ 非アルコール性脂肪肝炎に関する調査結果を報告
◆ 健康行動をもとにしたクラスターの特定を行った国際論文の発表

これらのプロジェクトにおいて、PREVENT組織の企画部が大きな貢献をしています。さらに、多様な案件に柔軟に対応するDSメンバーの胆力も素晴らしいものがありました。実際、成果は個々のメンバーの優れた業績としても見ることができるほどです。データベースや解析基盤を整えることと並行して、人材の育成やチーム全体の底上げ、チームビルディングが重要だと改めて感じました。ヘルスケア領域に関心のあるアナリスト、データサイエンティストの方はぜひ声をかけてください!!

その他

◆ DS超会議
部としての次のステップに進むため、DS部メンバーが会社の課題と部門方針を結びつけ、自分の役割と日常業務の関連を自分の言葉で説明できるようにする試みを行いました。

DS超会議 2023.8.17

◆ 黙々会
メンバーが自主的に始めました。SQLスキルアップを実施中。
参考図書:ビッグデータ分析・活用のためのSQLレシピ

まとめ

まとめというよりも個人的な感想です。

今年、データ解析基盤の構築とデータマネジメントの開始により、データサイエンス部は新たな段階に進みました。解析案件の多様化と難易度の上昇の中、メンバーの個々の成長や強さが目立ち、充実した一年でした。要するに、とても忙しい年でしたね。笑

人的資本およびそれをサポートする解析基盤の重要性を痛感した一年でした。住友生命グループへ参画したこともあり、他社の成熟したデータサイエンス部との人および技術のコラボが今からたのしみです。

データサイエンス部の皆さん、本当にお疲れ様でした!
来年も更なる飛躍を目指しましょう!!