「ImageBind: Holistic AI learning across six modalities」を読んで
気になったこと
5/10 Superpower Dailyのメールに以下のことが書いてありました。医学物理とは関係ないかもしれないんですけど面白そうなので読んでみました。
URL
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
要旨
ImageBind の紹介: 6 つのモダリティからのデータを一度にバインドできる最初の AI モデル。この画期的な進歩により、機械はさまざまな感覚からの情報を結合する人間の能力に一歩近づきます。
現場でやっている医学物理士の所感
今はテキスト形式の入力に対するAIが話題になっていますが、それ以上の感覚をコンピュータに与えてなにがしかの出力を得ようとするものなのでしょうか?
例えば、画像、音声、テキストなどに固有の特徴があって、それをAIが識別出来るということなんでしょうか?画像をフーリエ解析とか行って特徴を見つけているやり方とかと違うんでしょうね。
よくわからないのですが、あたかも現実にあったかのような画像、音声が作製できるということなんでしょうか?これが出来たらめっちゃ楽しいと思います。ちなみに、写真、映像、音楽のクリエイターなどの方々が使うことを考えてるらしいです。(The future of multimodal learningに記述)
AIの学習に関しては、ごく少数のトレーニング例を使用するだけでモデルのパフォーマンスが実際に向上できることを示しているらしいです。
私は何か見たものをほんわかなイメージでとらえてると思うのですが、AIがそれに近い感覚を持ち、何なら過去に得た感覚も混ぜ合わせたものを作り出すことができるかんじなのですかね。バーチャルの空間ながらすごいと思います。
これからの課題
今後の課題は、
ということですね。
分からないながら読んだのですが、まだまだAIは進歩していくと思いました。新しい論文が出たら読んでいきたいです。
May 11, 2023