![見出し画像](https://assets.st-note.com/production/uploads/images/166313262/rectangle_large_type_2_7b68ba7e786c40ba9deaa1c4d15c6eb6.jpeg?width=1200)
【論文瞬読】Apollo:動画理解AI設計の新基準を確立する包括的研究
はじめに
こんにちは!株式会社AI Nestです。近年、AIによる画像理解は大きく進展していますが、動画理解については依然として多くの課題が残されています。今回は、MetaとStanford Universityの研究チームによる画期的な研究を紹介します。この研究は、動画理解AIの設計における多くの疑問に答えを示すものです。
タイトル:Apollo: An Exploration of Video Understanding in Large Multimodal Models
URL:https://arxiv.org/abs/2412.10360
所属:Meta GenAI, Stanford University
著者:Orr Zohar, Xiaohan Wang, et al.
![](https://assets.st-note.com/img/1734572027-hW3CmjJMdBIRS86Vktq7Q0rb.png?width=1200)
図1は本研究の全体像を示しています。研究チームは、動画サンプリング方法から、エンコーダーの選択、トークン処理まで、動画理解AIの設計に関わるあらゆる要素を体系的に検証しました。
革新的発見:Scaling Consistency
本研究の最も重要な発見の一つが「Scaling Consistency」です。これは、小規模なモデルで得られた設計上の知見が、より大規模なモデルでも有効であるという性質を指します。
![](https://assets.st-note.com/img/1734572052-yZWgnOzVGoUAv0cjHsLhdEri.png?width=1200)
図3が示すように、3-4B程度のパラメータを持つモデルでの実験結果は、7B以上の大規模モデルの挙動と高い相関(R² > 0.9)を示しました。この発見により、計算コストの高い大規模モデルでの実験を行わずとも、効率的に設計の最適化が可能となります。
効果的な動画処理の方法
1. fpsサンプリングの優位性
![](https://assets.st-note.com/img/1734572074-MRB84NdHLUhIXGlrKv9smEou.png?width=1200)
研究チームは、従来広く使われていた均一サンプリングと比較して、fpsベースのサンプリングが優れていることを実証しました。図4が示すように、特に以下の点で優位性が確認されました:
一貫した時間解像度の維持
動作速度の認識精度向上
長時間動画への適応性
2. エンコーダーの最適な選択
研究では、複数の視覚エンコーダーを比較検討し、以下の重要な知見を得ました:
単体使用では、SigLIP-SO400Mが最高のパフォーマンスを示す
InternVideo2とSigLIP-SO400Mの組み合わせが最も効果的
画像エンコーダーと動画エンコーダーの適切な組み合わせが重要
Apolloモデルの成果
これらの知見を統合して開発されたApolloモデルは、複数のベンチマークで優れた性能を示しました:
Apollo-3B:既存の7Bモデルを上回るパフォーマンス(LongVideoBenchで55.1を達成)
Apollo-7B:同規模のモデルで最高性能(MLVUで70.9、Video-MMEで63.3を達成)
![](https://assets.st-note.com/img/1734572102-320dQPx8eYDZRfwzpoiEjycT.png?width=1200)
図7は、Apolloのトレーニングに使用されたデータの構成を示しています。テキスト、画像、マルチ画像、動画の最適な組み合わせが、モデルの高性能化に貢献しています。
まとめ:実務への示唆
本研究の成果は、動画理解AIの開発に携わる実務者に対して、以下のような重要な示唆を提供します:
実験の効率化:小規模モデルでの実験結果を活用することで、開発サイクルを大幅に短縮できます。
設計の最適化:
fpsベースのサンプリングの採用
適切なエンコーダーの組み合わせ
トークン処理の最適化
データ構成:テキストデータを10-14%程度含む、バランスの取れたトレーニングデータの使用
これらの知見は、動画理解AIの開発における新たな基準となることが期待されます。