第1号 「画像生成と3D物体生成」
はじめのご挨拶
コンピュータービジョンを中心に毎週、新しい研究をいくつかピックアップし紹介いたいます。arXivを中心に紹介する予定ですが、学会が開催されていればそちらから紹介することもあるかと思います。詳細についてはピックアップする記事は少なくとも5~8本は選びたいので、その量から全て把握するのは難しいため、概要を把握するのに論文一つにかける時間を多くは避けません。私はまだまだ精進する身にあるため、勉強の一つとしてこの週刊ポストをすることにしました。そのため正確性には欠ける可能性があります。さらに、chatGPTを一部使って時間短縮をしているため文章的に整合性が取れない部分もあるかもしれません。ぜひ、興味がある論文があれば原著を読むことを推奨いたします。
PALP: Prompt Aligned Personalization of Text-to-Image Models
何を解決したのか
学習させたオリジナルオブジェクト(パーソナライゼーション)とプロンプトの合成を忠実に行わせられる他とどう違うか
既存手法では、パーソナライゼーション手法のプロンプトと相性には対処していないため、不適切な画像が生成されがちだった。技術の手法やキモはどこ
プロンプトとの整合性を担保するために「Prompt Alignment Method」を導入している。簡単に言えば、過学習を防ぎ少量のサンプルからパーソナライゼーションを可能にする。
GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
何を解決したのか
3D画像生成の学習の評価指標に決定的なものがない→自動的で汎用性が高く、人間に沿った評価指標を開発。この研究では、GPT-4Vを利用して、自動的で多様で人間の判断と一致する評価基準を開発。他とどう違う
従来の評価方法: 以前の研究では、CLIPのようなマルチモーダル埋め込みを利用してテキストから3Dモデルへの整合性を評価していました。しかし、これらのメトリクスは特定の基準を測定するために設計されており、テキストから3Dモデルへの評価の異なる要件に適応する柔軟性がなかった。
新しい評価方法: この研究では、GPT-4Vを使用して、柔軟でカスタマイズ可能なテキストプロンプトを生成し、これらのプロンプトを使用して3Dモデルを評価する新しい方法を開発しました。この方法は、異なる評価基準に対応し、人間の判断との一致度が高いことが特徴。
技術の手法やキモはどこ
メタプロンプトシステム: GPT-4Vを利用して、評価の焦点に基づいてカスタマイズされた入力テキストプロンプトのセットを生成する「メタプロンプト」システムを開発。
ユーザー定義基準の比較: GPT-4Vに指示テンプレートを設計し、ユーザーが定義した基準に基づいて2つの3D形状を比較します。この比較結果を使用して、テキストから3Dモデルへの各モデルにEloレーティングを割り当てる。
結果: この新しいフレームワークは、様々な評価基準において、人間の判断とより良く一致することを実証し、既存のメトリクスを上回る結果を示した。
InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
何を解決したのか
問題点: 既存の3Dシーン編集手法では、特にスタイルや外観の変更、または既存オブジェクトの除去には効果的でしたが、新しいオブジェクトの生成には限界がありました。特に、複雑なシーンにおいて、異なる視点からの2D編集に頼ることが多く、これらの編集は3Dの視点間で一貫性がなく、適切な空間的制御が不足していました
解決策: InseRFは、ユーザー提供のテキスト説明と単一視点の2Dバウンディングボックスを用いて、3Dシーンに新しいオブジェクトを生成し挿入する方法を提案しています。この方法は、シーンの3D再構築に基づき、参照視点の2D編集から3Dオブジェクトへと「リフトアップ」するプロセスを含みます。
他とどう違うか
従来の方法との違い: 他の3Dシーン編集方法と比較して、InseRFは特に新しいオブジェクトの挿入に焦点を当てています。既存の手法は、主にシーンのスタイルや外観の編集に限定されており、特定の位置でのオブジェクトの挿入や削除には対応していないことが多かったです。InseRFは、これらの制約を克服し、多視点間での一貫性を保ちながら、新しいオブジェクトをシーンに挿入できる点が異なります。
技術の手法やキモはどこ
核となる技術: InseRFの核となる技術は、テキストに基づく2D編集を行い、その後にこの編集を3Dオブジェクトの再構築と統合することです。これは、単一視点からのオブジェクト再構築法を用いて、生成されたオブジェクトを3Dシーンに挿入するプロセスを含んでいます。オブジェクトは参照視点の推定された深度に基づいてシーンに配置され、必要に応じてシーンとオブジェクトの統合をさらに洗練することができます。この方法は、明示的な3D空間情報を必要とせず、テキスト説明と単一視点の2Dバウンディングボックスに基づいて、3Dシーンに新しいオブジェクトを一貫して挿入することが可能です
CLIP-guided Source-free Object Detection in Aerial Images
何を解決したのか
問題点: 航空画像におけるオブジェクト検出は、地理的位置、時間、天候などの条件によって画像の視覚的表現が大きく異なることがあり、これに適応することが課題でした。加えて、高解像度の航空画像は多くのストレージスペースを必要とし、一般に容易にアクセスできないことも問題でした。これらの課題に対処するため、新しいソースフリーオブジェクト検出(SFOD)手法が提案されました。
解決策: 提案された手法は、自己学習フレームワークに基づいており、CLIP(Contrastive Language–Image Pre-training)を統合して、疑似ラベルの生成をガイドする「CLIPガイド付き集約」を導入しました。CLIPのゼロショット分類能力を活用して、元の予測されたバウンディングボックスとスコアを集約し、疑似ラベルの精度を向上させました。
他とどう違うか
従来の方法との違い: 以前のディープラーニングベースの航空画像オブジェクト検出手法は、詳細なインスタンスレベルの注釈が必要で、時間がかかりコストが高いという問題がありました。さらに、これらのモデルは、異なるセンサーや天候下で撮影された航空画像に適用した場合、一般化能力に制限があるという課題がありました。
技術の手法やキモはどこ
核となる技術: SFODの文脈では、実践者はラベル付けされていないターゲットデータセットと事前学習されたソースモデルのみを使用します。ラベル付けされたソースデータセットへのアクセスはありません。自己学習方法を採用し、CLIPガイド付き集約を組み込んで、疑似ラベルのスコアを洗練することで、不正確な疑似ラベルの生成を防ぎます。この方法は、教師モデルからの初期のクラススコアを洗練し、疑似ラベルの生成を安定させ、教師-学生の学習サイクルから独立して、誤ったラベルの伝播の可能性を減少させる効果があります
Attention to detail: inter-resolution knowledge distillation
何を解決したのか
問題点: デジタル病理学における全スライド画像の大きなサイズによる計算上の制約が、コンピュータビジョンソリューションの開発を妨げていました。特に、高解像度での生検のデジタル化は時間がかかるプロセスであり、画像の詳細が減少することで結果が悪化するため、必要なプロセスでした。
解決策: 知識蒸留を使用して、低解像度の画像でモデルの性能を向上させる手法が提案されています。特に、最高倍率レベルで抽出されたソフトラベルと特徴が、低倍率の画像を入力とするモデルに蒸留されています。しかし、このアプローチは、分類プロセスにおいて最も識別的な画像領域に関する知識の転送に失敗していました。そこで、本研究では、トレーニング中にアテンションマップを組み込むことにより、この情報を蒸留することを提案しています。
他とどう違うか
従来の方法との違い: 既存の知識蒸留手法は、高解像度画像でのトレーニング中に得られる識別的な画像領域に関する知識を転送することに失敗していました。本研究では、アテンション認識の定式化を採用し、低解像度のモデル展開時に必要な画像解像度を削減することに焦点を当てています。
技術の手法やキモはどこ
核となる技術: この研究の主な貢献は、解像度間の知識蒸留のための新しいアテンション制約付き定式化にあります。高解像度画像でトレーニングされた教師モデルが生成するアテンションマップにマッチするように、学生モデルをトレーニングすることを提案しています。具体的には、提案されたAT+項では、厳密に正の勾配のみを転送します。この方法は、前立腺組織学画像グレーディングのコンテキストで検証され、展開時に必要な拡張を8倍少なくしながら、競争力のある結果を達成しています
TRIPS: Trilinear Point Splatting for Real-Time Radiance Field Rendering
何を解決したのか
問題点: 点ベースの放射場レンダリングは、新規ビュー合成において印象的な結果を示していますが、最新のアプローチには問題がありました。3Dガウススプラッティングは、詳細なシーンのレンダリングにおいてぼやけや曇りのアーティファクトが発生し、ADOPはよりクリアな画像を実現できますが、ニューラルネットワークの再構築によりパフォーマンスが低下し、ポイントクラウドの大きなギャップに効果的に対処できませんでした。
解決策: TRIPSは、3DガウススプラッティングとADOPのアイデアを組み合わせた手法です。この手法は、スクリーンスペースのイメージピラミッドに点をラスタライズし、投影された点のサイズによってピラミッドの層を選択します。これにより、任意に大きな点を単一の三線形書き込みでレンダリングできます。その後、軽量なニューラルネットワークを使用して、スプラット解像度を超える詳細を含む穴のない画像を再構築します。
他とどう違うか
従来の方法との違い: TRIPSは、3Dガウススプラッティングのように様々なサイズのスプラットをラスタライズし、ADOPのように再構築ネットワークを適用して穴のない鮮明な画像を生成します。この手法は、高い詳細レベルを保ちつつ、リアルタイムレンダリング能力を維持しています。
技術の手法やキモはどこ
核となる技術: TRIPSは、点クラウドを2×2×2の三線形スプラットとしてイメージピラミッドにラスタライズし、フロント・トゥ・バックのアルファブレンディングを使用してそれらをブレンドします。次に、イメージピラミッドをコンパクトで効率的なニューラルネットワーク再構築ネットワークに供給し、様々な層を調和させ、残りのギャップに対処し、レンダリングのアーティファクトを隠します。このパイプラインは、球面調和関数とトーンマッピングモジュールを含むため、特に難しい入力シナリオでも高いレベルの詳細を保持します
AGG: Amortized Generative 3D Gaussians for Single Image to 3D
何を解決したのか
問題点: 従来の3Dガウススプラッティングに基づくモデルは、3D再構築と生成において優れていましたが、最適化ベースのアプローチであり、多くの計算コストがかかるスコア蒸留ステップを必要としていました。このプロセスは、一つ一つのインスタンスごとに最適化する必要があり、効率的ではありませんでした。
解決策: 提案されたアプローチは、Amortized Generative 3D Gaussian(AGG)フレームワークを導入し、単一の画像から直接3Dガウスを生成することで、インスタンスごとの最適化の必要性を排除しました。AGGは、低解像度で3Dガウスのハイブリッド表現を予測し、その後3Dガウス超解像モジュールで細かい解像度にアップサンプリングします。これにより、質的にも量的にも競争力のある生成能力を示しながら、計算速度を大幅に向上させました。
他とどう違うか
従来の方法との違い: AGGフレームワークは、既存の最適化ベースの3Dガウスモデルや他の3D表現を使用するサンプリングベースのパイプラインと比較して、単一画像から直接3Dガウスを生成することができます。これにより、テスト時の最適化の必要性が軽減され、推論段階の計算コストをトレーニング段階とトレードオフすることが可能になりました。
技術の手法やキモはどこ
核となる技術: AGGの主な技術は、アモルタイズド(前もって計算された)パイプラインで、3Dガウスを一度に生成する能力です。このネットワークは、画像の共有された3D理解を学習し、トレーニングセットの類似カテゴリの未確認オブジェクトに一般化することができます。AGGは、3Dガウスの動的数を予測するのに必要な適応密度制御と、レンダリングに基づく適切な初期化の必要性に対処するために設計されています。これにより、3Dガウスの外観を更新するのではなく、その位置を直接望ましい3D位置に移動させることが可能になります
[1] AGG: Amortized Generative 3D Gaussians for Single Image to 3D
[2] GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
[3] InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
[4] CLIP-guided Source-free Object Detection in Aerial Images
[5] PALP: Prompt Aligned Personalization of Text-to-Image Models
[6] Attention to detail: inter-resolution knowledge distillation
[7] TRIPS: Trilinear Point Splatting for Real-Time Radiance Field Rendering