動画に関して
ChatGPTなど、AIの進化がめざましく、話題になっていますので、AIの進化について学んでいきたいと思います。
ChatGPTの話題が豊富で、「シンギュラリティー」と感じる方は、多いと思いますが、テキストによる自然言語処理・音声処理・画像処理に比べ、動画処理は、さらに難易度があがり、人間のほうが優れています。
課題としては、
1.動画は、扱うデータ量が多い。
2.動画は、中で動く映像にに意味がある。
3.動画処理は、画像の「縦と横」に加え、時間の要素がある。
4.「動画解析(物体認識)」と、「動画生成」両方に課題がある。
ということかと思います。
ここで、AIが苦手な問題として、フレーム問題というのがあります。
フレーム問題
フレーム問題とは、有限の情報処理能力しかないAIには、現実に起こりうる問題全てに対処することができないことを示す問題です。
例えば「ハンバーガーを買え」という問題を要求された場合、AIは、起こりうる無数の出来事から、「ハンバーガーを買う」に関連することだけ抽出し、それ以外のことを無視しなければ行動ができません。
全てを考慮すると無限の時間がかかるため、フレームを作り、そのフレームの中だけで思考するのですが、AIには難しいという問題です。
AIによる動画解析の進化に関して
AIによる動画解析の進化の歴史は、次のようになっています。
1990年代
初期のAIによる動画解析技術が開発される。人間が、手動でフレームを分類し、それに基づいてモデルをトレーニングする必要がありました。
2000年代
動画解析におけるAI技術が進化し、顔検出を高速に行うことができる Viola-Jones、画像処理や物体検出などに利用されるAdaboostが登場しました。
2010年代
ディープラーニングの台頭により、動画解析の精度が飛躍的に向上しました。画像認識でも注目された「AlexNet」が登場することで、動画解析における物体認識やトラッキングの精度が大幅に改善されました。さらに、VGG、GoogLeNet、ResNetなど高精度な物体認識アルゴリズムが続々と登場しました。
動画中に注目すべきフレームを手動で指定するところから始まり、画像認識が成長することで、物体認識ができるようになりました。
AIによる動画生成の進化に関して
AIによる動画生成は、新しい技術となりますが、ベースとなっているのは、画像分類・生成アルゴリズムを元にしたもの(ディープラーニング、CNN、GAN)から生成されます。
有名なものを紹介しておきます。
META社(旧FaceBook)が発表した「Make-A-Video」
画像生成でも有名なStable Diffusionの動画版「Stable Diffusion Video」
スタートアップ「Runway」社の「Gen-2」
AIで写真画像をしゃべらせることができる「Creative Reality Studio」
動画AIの進化
動画解析(物体認識)AIの進化は、
①手動のフレームによる動画解析
②画像認識を応用した動画解析
③深層学習による動画解析
動画生成AIの進化は
①画像認識・生成AIを応用した動画解析
という進化となっています。
動画解析AIは、フレームを見つけ、画像認識をし、深層学習によるアルゴリズムへ進化。
動画生成AIは、画像認識・生成AIを応用した動画生成というように進化しています。
まさに成長中の技術
動画解析(物体認識)AI、動画生成AIの進化について学んだと思います。
動画に関するAIは、現在まさに成長中の技術ですので、次々と新しい技術、サービスが生まれています。
大量の情報が含まれる動画の中から、重要なフレームを見つけ出したり、動画編集を行ったり、テキスト・画像から新たな動画生成する技術は、これからの技術となります。AIの動画解析・生成技術に注目していきましょう!!