【論文紹介】ポリープ検出を高精度かつ高速に!内視鏡動画の隣接フレームを活用することで性能を向上させたモデル
論文情報
Yuncheng Jiang, Zixun Zhang, Ruimao Zhang. et al. (The Chinese University of Hong Kong, Shenzhen)
"YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast Video Polyp Detection"
MICCAI 2023
リンク (arXiv版)
要点
動画の隣接フレームを利用することでポリープ検出性能を向上
3つのデータセットを使って12モデルを比較、著者らが提案したYONAが検出精度と検出速度を高いレベルで両立されている結果を示した
使ったデータセット
3つのオープンデータセット
SUN Colonoscopy Video Database
LDPolypVideo
CVC-VideoClinicDB
主な結果
今年のMICCAI採択論文から1本紹介します。
まず、内視鏡動画に対してポリープ検出をするタスクですが、一般的な動画と大きく違う点として、カメラの動きが速く、映っている箇所が次々と切り替わっていくというということがあります。
そのため、動画を対象とした検出タスクに関する最新のモデルが数多くありますが、その手法が内視鏡動画に対してはあまり効果がないということはよくあります。
また、内視鏡動画あるいはリアルタイムで検査しながらポリープを検出するとき、検出速度にはある程度以上の速さが求められます。
というのも、検査中はどんどんカメラを動かしていくので、検出して画面に検出位置を示すのが遅いと、すでに別の場所を見に行ってしまっており本来はどこのものを検出したのかがわからなくなってしまうからです。
さらに、高速で動くカメラに対する検出は画面のちらつきも引き起こしてしまうことがあります。もし、誤検出が多いと画面のちらつきを起こして検査の邪魔をしているだけになってしまうので注意する必要があります。
このように内視鏡動画に対する検出タスクは検出精度と検出速度の両方を高いレベルで実現する必要があるのですが、既存の他の一般動画に対する手法が有効でない場合も多々あり、改善が難しい領域になっています。
今回紹介する論文はその課題に挑戦したものになっており、その手法のコンセプトも隣接フレームを利用するというシンプルなものです。

モデルの構造としては、
Foreground Temporal Alignment (FTA)
Background Dynamic Alignment (BDA)
Cross-frame Box-assisted Contrastive Learning (CBCL)
の3つがポイントになっています。
性能評価は3つのデータセットで行っており、ほとんどの項目で提案手法であるYONAがトップの結果(赤色)になっています。

さらに、そのような高い検出性能を維持しつつ、速度(FPS)も維持できていることがわかります。(青色なので2位)

検出結果の例を見ても、他の最新モデルでは誤検出や検出漏れがあるものに対しても正しく検出できていることが示されています。
また、提案手法に対するAblation Studyの結果も示されており、FTAやBDA、CBCLといったものが確かに性能の向上に寄与していることがわかります。

さらに、Supplementaryとして利用する隣接フレーム数の影響についても示されており、性能と速度を両立する上で使うのは1フレームが最も良いことがわかります。
