【生成AIニュース】『Shuttle 3.1 Aesthetic』『Aiuni AI』『MultiFoley』『KoboldCpp 1.79』『AnchorCrafter』『Auralis』『Instant Policy』『Omegance』『sdxl-line-art-style-transfer-tost』『INMO Air 3』『VX2-XL』『Amazonのドローン配達』『猫が料理』
まいどです。
本日の生成AIニュース。
■Shuttle 3.1 Aesthetic
Shuttle 3.1 Aesthetic は、テキストの説明 (プロンプト) から高品質で芸術的な画像を生成する AI モデルです。
わずか 4 ~ 6 ステップで、ユーザーが入力したテキストに基づいて画像を作成できます。
■Aiuni AI
撮影した人物動画からその動きを抽出し、さらにその動きをポリゴンモデルに反映させる事が出来るAIサービスです。
画像から3DへのAIを使用して独自の3Dモデルを作成することもできます。
それはそうと、元の動画の人も凄すぎやしませんかね、コレ。
■MultiFoley
MultiFoleyはAdobeから発表されたビデオの音声効果を生成するモデルです。
ビデオとテキスト、音声、ビデオのマルチモーダル制御で、ビデオに合わせた音声効果を生成することができます。
例えば、サイレントビデオと「スケートボードの車輪が回転する音」というテキストプロンプトを与えると、風切り音のない綺麗な回転音が生成されます。
■KoboldCpp 1.79
KoboldCpp は、 AIを使って文章生成ができるソフトウェア です。
こちらの1.79バージョンがリリースされました。
今回のバージョンアップで、複数の参加者が協力して同じセッションを共有し、順番にAIとチャットしたり、一緒にストーリーを共同執筆したりできるようになりました。
また、オンラインまたは自分のローカルネットワーク上の複数のデバイス間でセッションを簡単に共有するためにも使用できます。
■AnchorCrafter
AnchorCrafterは、人と物体の相互作用を生成する動画生成システムで、オンラインコマース、広告、消費者エンゲージメントにおいて、自動的にアンカースタイルの商品プロモーションビデオを生成する有望なシステムです。
簡単に言えば、任意の写真とオブジェクトを組み合わせ、任意の動作をさせた動画が生成出来るフレームワークです。
■Auralis
Auralis は、テキストを音声に変換する (Text-to-Speech) エンジン です。高速で高品質な音声生成を実現します。
XTTS-v2の最適化モデルであり、長いテキストでも短時間で音声に変換できたりします。
他にも様々な最適化がなされています。
■Instant Policy
Instant Policyは、わずか1つか2つのデモンストレーションから新しいタスクを即座に学習し、グラフ表現による帰納バイアスと、擬似デモンストレーションによる無限の訓練データという、2つの主要な要素を通じてICILを実現します。
■Omegance
Omeganceは、ディフュージョンモデルを用いた画像や動画の生成において、生成物の細部レベルを制御するための単一のパラメータω(オメガ)を導入するフレームワークです。
モデルの再訓練やアーキテクチャの変更、推論時の追加計算コストなしに、ωパラメータのみで細部レベルを制御できます。
■sdxl-line-art-style-transfer-tost
sdxl-line-art-style-transfer-tost は、Tost というプラットフォーム上で動作する、線画アートスタイル変換を行うためのワークフローです。
■INMO Air 3
中国のメーカー「INMO(影目科技)」が新たにINMO Air 3を発表しました。
スタンドアローンで動き、3DoF しかもマルチウィンドウ対応です。
が、視野角が36度らしいので、結構狭いかも。
■VX2-XL
VX2-XLは世界最大の3D volumetric displayで、最大1600万色のボクセルを備えたインタラクティブ3Dホログラムをサポートしているデバイスです。
従来のディスプレイとは異なり、画面上に映像を投影するのではなく、空間に直接立体的な映像を形成します。
どういう仕組みなのかバラして検証してみたいですね。
■Amazonのドローン配達
Amazonはアリゾナ州トーレソンで新型の小型配達ドローンをテストするためのFAAの承認を取得したそうです。
とうとうドローンが配達し始めましたね。
でも、その高さから落とすんですね……。(そのあと風で転がってる?)
■猫が料理
えっ、ちょ、これ凄いです。
ComfyUIのLTXVideoのI2Vで生成した動画らしいのですが、一貫性もですが、リアルさが半端ないです。
あと可愛い。
https://www.reddit.com/r/StableDiffusion/comments/1h3iyg6/i_never_cook/
本日は以上となります。
それでは、また。