「ImageBind: Holistic AI learning across six modalities」を読んで

Hiroki

2023年5月11日 19:17

気になったこと

5/10 Superpower Dailyのメールに以下のことが書いてありました。医学物理とは関係ないかもしれないんですけど面白そうなので読んでみました。

URL

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

要旨

ImageBind の紹介: 6 つのモダリティからのデータを一度にバインドできる最初の AI モデル。この画期的な進歩により、機械はさまざまな感覚からの情報を結合する人間の能力に一歩近づきます。

現場でやっている医学物理士の所感

「人間が世界から情報を吸収するとき、複数の感覚を使います。本日、私たちは、明示的な監視を必要とせずに、さまざまな形の情報から同時に、総合的に、直接学習する人間の能力に機械が一歩近づくアプローチを導入します。」

今はテキスト形式の入力に対するAIが話題になっていますが、それ以上の感覚をコンピュータに与えてなにがしかの出力を得ようとするものなのでしょうか？

「一般的な AI システムでは、それぞれのモダリティに特定の埋め込みが存在します。」

例えば、画像、音声、テキストなどに固有の特徴があって、それをAIが識別出来るということなんでしょうか？画像をフーリエ解析とか行って特徴を見つけているやり方とかと違うんでしょうね。

「ImageBind は、6 つのモダリティの埋め込みを共通の空間に配置することで、・・・異なるモダリティからの埋め込みの追加によるセマンティクスの自然な構成、およびオーディオから画像への生成を可能にします。・・・事前トレーニング済みの DALLE-2 デコーダーを備えたオーディオエンベディングを使用します。」

よくわからないのですが、あたかも現実にあったかのような画像、音声が作製できるということなんでしょうか？これが出来たらめっちゃ楽しいと思います。ちなみに、写真、映像、音楽のクリエイターなどの方々が使うことを考えてるらしいです。（The future of multimodal learningに記述）

AIの学習に関しては、ごく少数のトレーニング例を使用するだけでモデルのパフォーマンスが実際に向上できることを示しているらしいです。

私は何か見たものをほんわかなイメージでとらえてると思うのですが、AIがそれに近い感覚を持ち、何なら過去に得た感覚も混ぜ合わせたものを作り出すことができるかんじなのですかね。バーチャルの空間ながらすごいと思います。

これからの課題

今後の課題は、

「研究では 6 つのモダリティを検討しましたが、触覚、音声、嗅覚、脳の fMRI 信号など、できるだけ多くの感覚をリンクする新しいモダリティを導入することで、より豊かな人間中心の AI モデルが可能」

ということですね。

分からないながら読んだのですが、まだまだAIは進歩していくと思いました。新しい論文が出たら読んでいきたいです。

May 11, 2023