[023]「視覚」を獲得し始めたライブAIチャットと、「「WorldScribe」のお話

生成AIにによるリアルタイムチャットが「視覚」を持ち始めました。このような機能がここまで早く登場するとは思っていなかったため、正直なところ驚きを通り越し少し引いてしまったというのも事実なのですが、現時点での情報から(まだ妄想まじりではありますが)支援技術としての可能性について少し考えた雑感です。ついでに関連性の高そうな研究「WorldScribe」を紹介します。

AIがリアルタイムの「眼」を持った日

まずOpenAIは、ChatGPTのAdvanced Voiceモードにおけるリアルタイムのビデオ解析機能の追加を発表し、それに続きGoogleはGemini 2.0 とともに映像や音声をリアルタイムに理解する次世代AIアシスタントAstraの最新バージョンのデモンストレーションを公開。さらにMetaはRay-Ban Metaグラスの早期アクセスプログラムユーザーを対象に同様の機能であるlive AIの提供を予告しました。
立て続けに発表されたこれらの技術は、生成AIが、ストリーミングされたカメラもしくはスクリーンショットの映像をリアルタイムに解釈し、音声チャットを通じビデオに関する様々な情報をシームレスにやり取りできるようになる可能性を示しています。ChatGPTに関しては、すでに課金ユーザーを対象に公開され始めており、GeminiについてもAstra(のように見える)「Stream Realtime」が無料で体験できます(英語のみ?)。MetaのLive AIはRay-ban Metaグラスで使えるという意味で魅力的ですが、GoogleもSAMSUNGと共同改発したウェアラブルプラットホームAndroid XRを発表しており、将来的にスマートグラス上でAstraが動作する可能性はかなり高いと言われています。

視覚支援技術的視点で生成AIを妄想する

従来からの生成AIに関する欠点に加え、データ通信の帯域やプライバシーの問題、端末のバッテリーやフレーム数の少なさなどいくつかの懸念もありますが、これらの機能は視覚支援技術としての面からも、今後最も注目される技術の一つであることは間違いないでしょう。
無課金な私は実際に試せてはいないのですが、OpenAIが公開しているデモ映像では、ChatDPTと音声でシームレスに会話しながら、目の前にいる人々やオブジェクトについての情報をある程度的確に答えているようです。これをみる限り、現時点ではまずユーザーから何かしらの質問なり依頼をしなければ応答は返ってこない仕様のようですが、それでもリアルタイムのAIチャットが「視覚」を獲得しているという印象は強く残るものです。
おそらく今後、キャプチャした映像について過去に遡って対話したり、生成AIから情報をプッシュするような使い方もできるようになる可能性は十分に考えられます。そうなると、例えば通り過ぎたお店やすれ違った人物について後から質問したり、目の前の障害物について注意喚起する、指で指し示した物体(タッチパネルなど)の情報を教えてくれるなど、視覚障害者にとって様々なユースケースが考えられます。
これらの技術はまだリリースされたばかりで、実際にどの程度実用的かつアクセシブルであるのかは不透明ですし、今これを書いている間にも状況は変化している可能性もあるわけですが、何はともあれ使って見ないことにはなんとも言えない訳で、早く体験してみたいところです。希望的予測として、Be My AIやGeminiアプリで使えるようになると良いのですが、私はとにかくRay-ban Metaグラスが猛烈に欲しくなりました。

「WorldScribe」:リアルタイムの画像説明を最適化する研究

さてここにきて、AIが生成したイメージの説明をリアルタイムに伝達するというソリューションが一気に現実味を帯びてきたわけですが、そのフィードバック方法に関して様々な研究が進められています。AIで生成した説明を「言葉」としてリアルタイムに伝達する場合、問題となってくるのが、説明される内容の量と質のバランスです。キャプチャしたイメージを無制限かつ詳細に説明してしまうと、ユーザーは身動きすらとることすらできなくなってしまい、実用的とは言えません。そもそも情報量が圧倒的に多い視覚を、言葉(文字)へ変換する時点で、必然的に、情報の取捨選択が求められてくるわけです。
ミシガン大学の研究者による「WorldScribe: Towards Context-Aware Live Visual Descriptions」は、生成AIによるリアルタイムの画像説明を最適化させるシステムに関する研究です。これはユーザーの行動や好みに合わせ、生成する説明量を自動的に調整することで、視覚情報を言葉に変換する際に発生する情報のオーバーフローを解消する子とを目指すものです。
例えば部屋の中を歩き回ったり、ぐるりと周囲を見渡している時はオブジェクトの名前など簡単な説明だけをアナウンスし、デスクの前で立ち止まり探し物などをする場合などには詳細な説明を提供するといった具合に、ユーザーの行動パターンなどに応じ3種類のAIモデル(GPT-4v、Moondream、YOLO World)を切り替えることで説明の詳細度を自動的に調整します。同時にあらかじめユーザーが興味のあるジャンルを登録しておき、それに合わせ説明するオブジェクトを順位付けしたり、周囲の雑音レベルに応じアナウンスの音量を調節する機能も備えています。
実証実験に参加した視覚障害者からは、リアルタイムによる物体検出により環境の理解が高まったという評価が得られた一方、AIモデルに起因する誤認識や説明における一貫性の欠如、カメラの画角制限により混乱するケースも見られ、ユーザーが期待するような結果が得られるシステムの実現にはまだ多くの課題が残されているようです。

視覚障害者が世界と対話する方法は変わるのか

将来的にこの研究が実用化されるかは不明ですが、この論文は現実世界と視覚障害者との対話方法を考える一つのヒントにもなるような気もします。目の見えない人間が視覚的な世界と対話するにあたり、(もちろん情報の妥当性が確保されているという前提で)どのようなインターフェイスが最適なのか。それはもしかすると言語に限らず、音楽や振動であるのかもしれませんが、探求を続けていただきたいと思う次第です。
この記事の前半で触れたAIチャットはなんとなく「晴眼者とペアになった状態での会話によるサポート」をイメージするのですが、その先にはもっと自律的かつ直感的な世界との対話が待っているのではという妄想が膨らんでしまうのでした。とりあえず、今後の進展を興味深く追っていきたいと思いました。

#AT365 #アクセシビリティ #障害 #視覚障害 #生成AI

いいなと思ったら応援しよう!