Towards Answering Health-related Questions from Medical Videos: Datasets and Approaches
本研究の学術的背景は、オンライン動画の利用増加により医療領域の教育ビデオが一般の健康に関する質問に対する視覚的な回答を提供可能になったことです。一方で、研究課題の核心をなす点としては、医療領域における大規模データセットの不足が公衆の健康関連の質問に対するアプリケーションの開発を妨げる主要な課題であるという問題があります。
この研究の目的は、HealthVidQA-CRF と HealthVidQA-Promptという2つの大規模データセットの作成を提案し、医療ビデオから自然言語の質問に視覚的な回答を効果的に提供できる単一モーダルとマルチモーダルのアプローチを提案することです。この研究の独自性と創造性は、これらの2つの新しいデータセットの生成に取り組み、その結果の効果を視覚的な特性がパフォーマンスに与える影響に焦点を当てて包括的に解析することにあります。
この研究は、人々が自然言語のクエリーを通じて機械との対話を試み、求めている答えをビデオから的確に探すという現実世界のシナリオを反映するために着想されました。関連する研究動向としては、AIアプリケーションでのマルチモーダルシステムの進化や大規模な言語とビジョンのモデルの登場があります。大規模なデータセットが利用可能になることで、言語ビジョンタスクのパフォーマンスが大幅に向上しました。しかしこの進歩はほぼ公開ドメインに限定されており、膨大なVidQAとNLVLタスクの応用が可能な医療とヘルスケアのドメインはまだ探求されていません。
本研究では、まず医療ビジュアルアンサーローカリゼーションタスクに対する大規模データセットを自動的に作成するためのパイプラインアプローチを提案しました。その結果、23,436個および52,711個の問いと回答のペアからなる2つの大規模データセット(HealthVidQA-CRFとHealthVidQA-Prompt)を作成することができました。また、これらのデータセットを使用して単一およびマルチモーダルのアプローチを提案し、医療ビジュアルアンサーローカリゼーションタスクにおける大幅なパフォーマンス向上を達成しました。
本研究の有効性は、生成されたデータセットを使用して単一およびマルチモーダルの手法を訓練し、その結果を詳細に解析して確認しました。その結果、提案したCCALアプローチが既存の手法よりも優れていること、さらにHealthVidQA-CRFデータセットを利用したマルチモーダルアプローチがパフォーマンス向上に寄与することが明らかになりました。