見出し画像

エルピクセルの根幹となる技術力 ~世界最大のAIコンペプラットフォームでの挑戦~

こんにちは、エルピクセルで機械学習エンジニアをしている髙木です。
突然ですが、「Kaggle」についてご存じでしょうか?
Kaggleとは、Googleの子会社が運営する世界最大のAI(機械学習)コンペティションプラットフォームのことであり、そこでは世界中の機械学習エンジニアやデータサイエンティストが日々しのぎを削っています。
今回はそんなKaggleと機械学習エンジニアの関わり、そして、それがエルピクセルにどのように関係しているのかをお話をしてみたいと思います。


Kaggleと機械学習エンジニアの技術力

Kaggleとは

改めての説明になりますが、Kaggleとは世界最大の機械学習コンペティションプラットフォームです。企業や政府機関、研究所などがデータを提供してコンペを主催し、世界中の機械学習エンジニアやデータサイエンティストがそのデータを用いて期限内に最適なモデルを作成して性能を競い合う、いわば機械学習の世界大会のようなものです。基本的に上位入賞者には賞金が出て、過去には優勝賞金が50万ドルにもなるコンペもありました。

また、Kaggleにはメダル制度があり、コンペ参加に関するメダル(Kaggle Competition Medals)としては、コンペ毎に参加者の上位約1%の性能のモデルを作成した個人やチームに金メダル、上位5%に銀メダル、上位10%に銅メダルが送られ、そのメダルの個数でいくつかの称号が設定されています。

Kaggleはいわゆるベンチマークデータセットよりも、現実の課題に対して機械学習を適用する際に集まるようなデータを用いてモデルを作成し、性能をランク付けして競い合うという性質から、参加することでエンジニアとしてのレベルアップにもなる上に、その結果がエンジニアの実力を示す客観的な指標として使用されているという側面もあります。

Kaggleと医用・ライフサイエンス画像

 Kaggleのコンペには様々な種類のものがありますが、実は医用画像やライフサイエンス画像が用いられるコンペも多く実施されています。代表的なもので言うと、北米放射線学会(RSNA)が主催するコンペは毎年実施されていますし、病理画像を扱うコンペも毎年実施されています。
そのようなこともあり、エルピクセルの機械学習エンジニアは定期的にコンペに参加し、技術力を磨いています。

【RSNAが主催するコンペ例】

【病理画像を扱うコンペ例】

Kaggleコンペの具体例

筆者も定期的にKaggleに参加しており、Kaggle Competitions Masterです。Kaggle Competitions Masterとは、コンペに参加し金メダル1枚以上かつ銀メダル2枚以上獲得で得られる上から二番目の称号です。

筆者のKaggleのプロフィール

特にエルピクセルに入社してからは、業務と親和性のある医用画像や病理画像のコンペに出ていますので、その中の一つであり、1,175チーム中7位で金メダルを獲得できた「 HuBMAP + HPA - Hacking the Human Body 」コンペについて簡単に説明したいと思います。

このコンペは、病理画像内のfunctional tissue units(*1)をセグメンテーションするコンペでした。このコンペでは5つの臓器(肺、腎臓、大腸、脾臓、前立腺)のfunctional tissue unitsに対して領域分割(セグメンテーション)を行いました。

左:学習データの画像(脾臓)中:画像と正解領域を重ねた画像 右:functional tissue unitsの正解領域
https://www.kaggle.com/code/abhinand05/hubmap-extensive-eda-what-are-we-hacking より引用

 このコンペの特徴としては、訓練画像とテスト画像で染色の種類が異なったり、収集施設が異なったりするなど、異なるドメイン由来のテストデータへの対応が求められた点が挙げられます。これは現実の病理画像解析で対応しなければならない課題ととても近いものであり、そのような状況でも精度の高いモデルを作成することができる力を示すことができたと思っています。
 最終的に採用した手法としては、強いdata augmentationを使用して学習した9個のセマンティックセグメンテーションモデルのアンサンブルになります。手法の詳細につきましては、こちらをご覧ください。

*1:functional tissue unitsとは、肺の肺胞や腎臓の糸球体のような、組織を
構成し特定の機能を担う組織単位のこと

エルピクセルとKaggle

ここまでKaggleや具体的なコンペについて説明してきましたが、Kaggleに参加することで得られる知見は、そのままエルピクセルの技術力に変わります。 また、筆者の個人的な考えですが、エルピクセルとKaggler(Kaggleの参加者)は親和性が高いと考えています。その理由を2つ書きます。

業務との親和性

エルピクセルの機械学習エンジニアの仕事は大きく分けて

  1. 自社のAI画像診断支援技術製品の開発

  2. IMACELに代表されるような製薬企業などとの協業

がありますが、これらはどちらもKaggleとの親和性が高い業務となっています。

前者は、Kaggleで求められる高性能なモデルを作成する力が存分に発揮できる業務な上に、製品の性能向上がそのまま社会に対して大きなインパクトを与えることにつながるので、ただモデル性能を向上させるだけではないやりがいもあります。
後者は、Kaggleで求められるデータに適応し素早く高性能モデルを作成できる力が存分に活かされます。特にエルピクセルでは、ライフサイエンス特有の画像データを扱うことも珍しくないため、Kaggleで培った適応力が役に立ちます。
また、その逆も然りで、業務で身につけたモデルの性能向上力や適応力をそのままKaggleで活かすことも可能です。

自己研鑽

エルピクセルではKaggle などコンペ参加時に社内GPU サーバが利用可能となっています。(ただし、実業務利用優先です)特に画像を扱うコンペでは計算資源が必要になることも多いので、これらを活用することでKaggleに参加しやすくなり、エンジニアの技術力向上に一役買っています。

まとめ

AI画像診断支援技術の開発やライフサイエンス画像解析は高い専門性や技術力、経験が必要となります。エルピクセルには、Kaggleで結果を残しているエンジニアや博士号を持つエンジニア、ライフサイエンスや医療の領域で実績を残してきた専門家など、高い技術力と高度な知見を有するメンバーが多く在籍しており、日々進化するAI技術をキャッチアップし、それらを身につけながら様々な開発に取り組んでいます。
もし、AI画像診断支援技術の開発やライフサイエンス画像解析、その他一般的な画像解析に関して何か取り組んでみたいとお考えの方がいましたら、ぜひ一度お問い合わせください。

AI画像診断支援技術の開発やライフサイエンス画像解析に興味のある機械学習エンジニアの方がいましたら、こちらからご応募ください!
Kaggleに取り組みやすい働き方や制度、技術力を向上できる環境があります!

文:髙木 優介


関連記事