見出し画像

キャラクタービデオ合成AI「MIMO」【アリババグループ/インテリジェントコンピューティング研究所が発表】

おつかれさまです、ゆーまです。

今回はニュース回です。

実際の人間や架空のキャラクターを現実世界で撮影した動画に合成できるMIMOがアリババグループ/インテリジェントコンピューティング研究所から発表されました。

★お知らせ★
無料モニターを募集しています。
画像生成AIで成功したい方はこの機会にぜひご覧ください。


まずはこちらの動画をご覧ください。


公式の動画がこちら。




MIMOは3D空間でも破綻や 違和感の極めてすくない動画を生成可能です。


キャラクタービデオ合成AI「MIMO」の特徴


以下の処理をしているため、これまでの合成AIにあった不自然さ2Dといった縛りは請けません。

①ビデオを分ける
 ビデオをキャラクター、背景、  他の物体の3つに分ける  
②キャラクターの動きと見た目を分ける  
 キャラクターの外見と動きを別々に処理  
 これにより、見た目と動きの情報が分かれて 整理される
③背景と物体を整理  
 背景や物体も一緒に整理し、全体のシーンとしてまとめる
④ビデオを再構成  ここまでの情報を使って新しいビデオを再構成


動画で合成されている以下の人物、キャラからも分かる通り、
リアルでもそうでなくてもかんり自然に動画に溶け込んでいることがわかります。  

左)NBAのカイリー・アービング選手 ※実在  
右)呪術廻戦の主人公 虎杖悠仁


ビデオ合成AI「MIMO」以外の24年9月のAIニュース

24年9月、他にもたくさんのニュースがありましたね。

気になるものがあればコメントで教えてください。

YouTubeのAI搭載ショート動画制作機能

YouTubeはAIを活用したショート動画制作をサポートする新機能を発表しました。
この機能により、ユーザーはテキスト入力だけで簡単に背景や短い動画を生成でき、編集スキルがなくてもショート動画を作成できるようになります。
これは、TikTokなどのショート動画市場に対抗するための機能強化と考えられますが、AIによるコンテンツの氾濫や質の低下についての課題も指摘されています。

検索エンジン「ゲスパーク」にオートパイロットエージェント統合

ゲスパークは、AIエージェントを統合した検索機能をリリースしました。
これにより、ユーザーが得た情報の信頼性をAIが複数のソースを使ってファクトチェックし、レポートとして提供します。
また、検索履歴の表示や検索結果ページの閲覧履歴機能も追加され、より便利になりました。

ChatGPTのアドバンスドボイスモード公開

ChatGPTの新しい「アドバンスドボイスモード」がついにリリースされました。
この新機能は、以前の「スタンダードボイスモード」と比べて大幅に改善されています。
従来はユーザーがチャット中に会話を中断して割り込むことができなかったり、返答までの時間が長かったりといった課題がありました。

しかし、これらが解決され、スムーズな会話が可能に。

現在は「ChatGPT Plus」と「チームプラン」のユーザーのみが利用可能ですが、今後が一般公開される可能性があります。


メタの新モデル「Llama(ラマ)3.2」

メタは、大規模言語モデル「Llama 3.2」を発表しました。
軽量でありながら高性能なモデルで、110億パラメータと900億パラメータ、30億パラメータの3種類が提供されています。
このモデルは、軽量かつローカル環境で利用可能なためデータのプライバシー保護が必要な場合に適しており、個人情報や機密データを他社のサーバーに送信することなく使用できます。
オープンソースとして「Hugging Face」などから無料で利用可能です


Gemini1.5 ProとGemini1.5フラッシュのアップデート

GoogleのAIモデル「Jemi 1.5 Pro 002」と「Jemi 1.5フラッシュ002」のアップデートが発表されました。
これらは、性能と処理速度が向上し、特にJemini1.5 Proは200万トークンまで処理できるマルチモーダルAIとして注目されています。
また、コストも削減されました。
Jemi 1.5フラッシュでは、出力速度が2倍に向上し、より効率的に利用できるようになっています。


AIの進化はとまりません。

副業でも本業でもAI活用したい人はゆーまのフォローを宜しくお願い致します。

実体験にもとづき、明日から使えるAI活用情報を発信しています。


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?