[010] Seeing AI 5.4のビデオ説明機能を試してみる（※2024-11-28追記）

2024年11月7日 23:17

2024年10月31日、Microsoftの視覚障害者向けアプリ「Seeing AI」がVer.5.4へアップデートされ、多数の新機能が追加されました。その中でも目を引くのがビデオの説明機能です。現在iPhone向けとしてはAIでイメージ（静止画）を説明するアプリが数多くリリースされていますが、私の知る限りビデオを説明できるものはまだ存在していないのではと思います。果たしてこの機能、どれだけ実用的なのでしょうか。

※2024-11-28追記。ビデオをAIで説明するアプリですが、すでに「PiccyBot」が存在します。Android版の記事ですが、Seeing AIとの比較記事が参考になります。

Seeing AIでビデオを説明するには、いくつかの方法があります。なお現時点で説明を生成できるビデオはMP4形式のみ、さらに認識できるビデオは一日あたり10本までという制限があります。※操作方法はVoiceoverオンの状態でのものです。

1. カメラロールからの読み込み：Seeing AIを起動したらメニューを開き「写真の参照」をダブルタップ。カメラロールに保存されているメディアから説明したいビデオをダブルタップで選択し、ツールバーにある「説明」ボタンをダブルタップすると解析処理が実行されます。
2. クラウドストレージからの読み込み：例えばiCloud Driveからビデオを読み込む場合、「ファイル」アプリを起動して説明させたいファイルをタップし、上下スワイプから「共有」を開きます。共有シートが開くので、「Seeing AIでの認識」をダブルタップするとエクスポートが始まり、しばらくすると解析処理が実行されます。
3. 他アプリからの読み込み：WhatsAppからも読み込めるようですが試していません。Xは対応していない？　他にも使えるアプリがあるのかもしれません。

テストでは30秒程度のビデオを解析。時間帯にもよると思いますが、私のiPhone SE2では処理が完了するまでおよそ2、3分ほどかかりました。サイズが大きいとエクスポートにもかなりの時間を要し、あまり長時間のビデオを扱うのは難しいように思います。解析処理が完了すると以下のような画面になり、ビデオの再生が自動的に始まります（始まらない場合は「再生」をタップします）。

再生中は、説明が生成されたポイントでビデオが一時停止され、内容が音声で読み上げられます。読み上げが終了すると続きが次の説明ポイントまで再生される、この流れがビデオの終わりまで繰り返されます。要するに元のビデオと説明が交互に再生されるわけです。
いくつか試した範囲では、映像の時間軸的なへんか、例えばキャラクターが移動したり動きが止まったりするような説明が含まれており、これはSeeing AIがビデオ上の物体を識別し、その動きを追跡していることを意味します。その一方、それが具体的にどのような動きであるかまでは説明されませんでした。とはいえ単純に切り出したフレームを平面的に説明するだけではなさそうで、時々少し違和感のある部分はあるものの、ビデオの内容次第では十分にその映像をイメージできます。これは何気に凄いことなのではと感じました。なんとなくですが、画面全体がパンするような映像よりも、カメラを固定し被写体が動いているようなビデオの方が、わかりやすい説明が生成されるような印象を持ちました。なお現時点では生成された説明を保存したり、追加の質問をすることはできないようです。
今回の新機能による説明の品質は映画におけるAudio discriptionとは比較にはならないものではあるわけですが、まだ実験段階のような雰囲気はあるものの、生成AIによるビデオの説明がスマホアプリのレベルで実現している事実には素直に驚くべきものがあります。
Seeing AIや、Be My AIの登場により視覚障害者へ写真の楽しみが広まったように、この新機能は手軽にビデオを視聴したり撮影するひとつのきっかけにもなるような気がします。今後AIやiPhoneのプロセッサが進化していくにつれ、物体の動きのニュアンスや画面全体の動きがより自然に説明されるようになるでしょう。その結果、視覚障害者の動画撮影はごく当たり前のことになるのかもしれません。そしてそれはさほど遠い未来のことではないような予感がするのでした。
#AT365 #アクセシビリティ #障害 #視覚障害 #アプリ #iPhone

[010] Seeing AI 5.4のビデオ説明機能を試してみる（※2024-11-28追記）

いいなと思ったら応援しよう！