画像解析AI開発におけるアノテーションツール
こんにちは、LPIXEL研究開発本部 サイエンスグループ アルゴリズム開発エンジニアの菅原です。
LPIXELでAI開発を担当している一方で、理化学研究所(理研)生命機能科学研究センター研究員も兼務しており、AI技術を用いた細胞トラッキングツールやセグメンテーション解析ツールの開発など、積極的にオープンソースソフトウェア開発に携わっています。
画像解析AIの開発において欠かせないステップとしてアノテーションがあります。アノテーションとは、データに対して付加情報を与え、AIモデル学習に向けたデータを作る作業です。
医療グループのアルゴリズムエンジニアの齋藤の記事でもアノテーションの重要性に触れましたが、アノテーションは人手がかかる作業であり、AIで解決したい課題によっては大量の学習データを用意する必要があるケースも多く、AI技術よりもアノテーションがハードルとなるケースも少なくありません。そのため、効率的なアノテーション手法がAI開発において重要となります。
LPIXELでは共同でのAI開発を行う際、AI技術だけではなく、アノテーションの方法についてもより効率的に実施できる方法を検討、ご提案しています。
本記事では、アノテーションのなかでも「セグメンテーションタスク」にフォーカスし、画像解析AI開発において有用なアノテーションツールの紹介と解説を行います。
画像解析AIを用いたセグメンテーション
セグメンテーションとは
画像解析においての「セグメンテーション」は対象領域の輪郭を抽出するタスクであり、定量的な解析を進めるにあたって重要なステップとなります。特に、複数の物体を含む画像から個々の物体を識別して輪郭抽出するタスクはインスタンスセグメンテーションと呼ばれ、ライフサイエンスにおける画像解析で良く用いられる解析となります。
例えば、顕微鏡で撮像した細胞画像から、セグメンテーションにより個々の細胞の輪郭を抽出することで、細胞カウント・細胞形態解析・細胞トラッキングといった解析が可能となります。
セグメンテーションで使われるAI技術
セグメンテーションは、簡単なケースではフィルタ処理や二値化処理といった画像処理の組み合わせで実現されますが、複雑なケースではアノテーションデータを用いて学習したAI技術による手法が有効です。
特に、ディープラーニング技術の登場後、ライフサイエンス画像解析においてもAI技術の開発と普及が急速に進んでいます。
代表的なAIを用いた細胞セグメンテーションツールとしては、StarDist [1,2] やCellpose [3,4]という手法が挙げられます。これらの手法は畳み込みニューラルネットワーク(CNN)に基づいており、汎用的な事前学習モデルが提供されている他、ユーザのアノテーションに基づくモデル学習が可能です。
LPIXELでは、これらのオープンソースツールや当社独自のAI技術を活用し、細胞セグメンテーションを実現しています。
セグメンテーションタスクのためのアノテーションにおける課題
セグメンテーションタスクに向けたアノテーションは、複雑な形状の輪郭を捉える必要があるため非常に時間と労力のかかるタスクです。また、主に病理分野で用いられるWSI: (Whole Slide Imaging)画像のように大きい画像を対象とする場合には、1枚の画像上にある全ての細胞をひとつひとつ目視でアノテーションを付けるのは非常に時間がかかるため、適切なツールを選択することが重要となります。
例えばアノテーションを効率的に進めるために、「開発中の暫定的なAIモデルの推論結果を元に、人手で直しながら進める」という半自動的な手法が取り入れられることもあります。
セグメンテーション向けアノテーションツール
ここからはセグメンテーションのアノテーションを行なう際に適しているアノテーションツールをご紹介します。
アノテーションツールには単純に輪郭を描画する機能だけではなく、事前学習済みのAIモデルを活用し、より簡便にアノテーションを行なうことが出来る機能を有しているものもあります。
QuPath
QuPath [5] はライフサイエンス画像を対象としたオープンソースの画像解析プラットフォームです。QuPathは病理スライド画像のような大きい画像を効率的に扱うようにデザインされた、豊富かつ直感的な解析機能を備えるツールであり、近年ライフサイエンス研究業界で人気の高まっているツールです。矩形、ポリゴン、点を用いたアノテーションなど、画像解析で必要となる多様な機能が提供されており、機械学習と連携した機能も利用可能です。
Segment Anything Model (SAM)
Segment Anythin Model (SAM) [6] は、矩形やポイントといったラフなアノテーションを画像と合わせて入力することにより、対象オブジェクトの輪郭を出力するモデルです。SAMの事前学習済みモデルには多種多様な画像が学習に用いられているため新たにモデルを学習させる必要なく汎用的に利用可能であり、ライフサイエンス画像に対しても多くの場合有効に機能します。
私がアカデミアでの研究活動の一環で開発したQuPath上でSAMを利用できる拡張機能 [7] を利用し、LPIXELの業務でアノテーションの効率化を実践しています(下図参照)。
少量のアノテーションによるインタラクティブなモデルの学習
一般にAIモデルの学習には大量のアノテーションデータが必要となりますが、学習方法を工夫することにより、少量のアノテーションデータでAIモデルを学習することが可能となります。
例えば、「セグメンテーションで使われるAI技術」でご紹介したStarDistを元に、私がアカデミア(リヨン機能ゲノミクス研究所と理研)での研究活動の一環で開発したStarDistの拡張版 [7] では、インタラクティブにわずかな量のアノテーションを実施することにより、未学習・未アノテーションの状態から数分の時間で有用なAIモデルを学習することが可能です。
以上が、セグメンテーションタスクにおけるアノテーション手法・ツールの紹介となります。高品質なアノテーションデータを効率良く作成することがAI開発の鍵となります。
LPIXELが製薬会社をはじめとする企業の方と一緒にAI開発を行う際には、長年ライフサイエンス画像解析領域で培ってきた技術を基盤とし、プロジェクト内容に応じて適したアノテーション手法を提案しています。また、今回ご紹介したツール以外にも、課題に応じたアノテーションツールを独自に開発し、AI開発に活用しています。
LPIXELではライフサイエンス領域における画像解析AIの普及に向けて、研究開発から製品開発、法規制対応、販売促進まで、少数精鋭のチームでスピーディに取り組んでいます。少しでも興味を持った方は、お気軽にご連絡ください。
文:菅原 皓
参考文献
[6] Kirillov, A. et al. Segment Anything. arXiv. (2023)