【生成AIニュース】『Shuttle 3.1 Aesthetic』『Aiuni AI』『MultiFoley』『KoboldCpp 1.79』『AnchorCrafter』『Auralis』『Instant Policy』『Omegance』『sdxl-line-art-style-transfer-tost』『INMO Air 3』『VX2-XL』『Amazonのドローン配達』『猫が料理』

2024年12月1日 20:43

まいどです。
本日の生成AIニュース。

■Shuttle 3.1 Aesthetic

Shuttle 3.1 Aesthetic は、テキストの説明 (プロンプト) から高品質で芸術的な画像を生成する AI モデルです。
わずか 4 ～ 6 ステップで、ユーザーが入力したテキストに基づいて画像を作成できます。

■Aiuni AI

撮影した人物動画からその動きを抽出し、さらにその動きをポリゴンモデルに反映させる事が出来るAIサービスです。
画像から3DへのAIを使用して独自の3Dモデルを作成することもできます。
それはそうと、元の動画の人も凄すぎやしませんかね、コレ。

3D AI is on fire!

Aiuni AI lets you turn yourself into any 3D models that mimic the exact movements. You can even create you own 3D models with image-to-3D AI!

Huge leap forward for 3D AI animation!

Try it out for free, link in the comments!

9 Example: pic.twitter.com/RUCBWYdl1T
— el.cine (@EHuanglu) November 30, 2024

■MultiFoley

MultiFoleyはAdobeから発表されたビデオの音声効果を生成するモデルです。
ビデオとテキスト、音声、ビデオのマルチモーダル制御で、ビデオに合わせた音声効果を生成することができます。
例えば、サイレントビデオと「スケートボードの車輪が回転する音」というテキストプロンプトを与えると、風切り音のない綺麗な回転音が生成されます。

■KoboldCpp 1.79

KoboldCpp は、 AIを使って文章生成ができるソフトウェアです。
こちらの1.79バージョンがリリースされました。
今回のバージョンアップで、複数の参加者が協力して同じセッションを共有し、順番にAIとチャットしたり、一緒にストーリーを共同執筆したりできるようになりました。
また、オンラインまたは自分のローカルネットワーク上の複数のデバイス間でセッションを簡単に共有するためにも使用できます。

■AnchorCrafter

AnchorCrafterは、人と物体の相互作用を生成する動画生成システムで、オンラインコマース、広告、消費者エンゲージメントにおいて、自動的にアンカースタイルの商品プロモーションビデオを生成する有望なシステムです。
簡単に言えば、任意の写真とオブジェクトを組み合わせ、任意の動作をさせた動画が生成出来るフレームワークです。

■Auralis

Auralis は、テキストを音声に変換する (Text-to-Speech) エンジンです。高速で高品質な音声生成を実現します。
XTTS-v2の最適化モデルであり、長いテキストでも短時間で音声に変換できたりします。
他にも様々な最適化がなされています。

■Instant Policy

Instant Policyは、わずか1つか2つのデモンストレーションから新しいタスクを即座に学習し、グラフ表現による帰納バイアスと、擬似デモンストレーションによる無限の訓練データという、2つの主要な要素を通じてICILを実現します。

■Omegance

Omeganceは、ディフュージョンモデルを用いた画像や動画の生成において、生成物の細部レベルを制御するための単一のパラメータω（オメガ）を導入するフレームワークです。
モデルの再訓練やアーキテクチャの変更、推論時の追加計算コストなしに、ωパラメータのみで細部レベルを制御できます。

■sdxl-line-art-style-transfer-tost

sdxl-line-art-style-transfer-tost は、Tost というプラットフォーム上で動作する、線画アートスタイル変換を行うためのワークフローです。

■INMO Air 3

中国のメーカー「INMO（影目科技）」が新たにINMO Air 3を発表しました。
スタンドアローンで動き、3DoF しかもマルチウィンドウ対応です。
が、視野角が36度らしいので、結構狭いかも。

■VX2-XL

VX2-XLは世界最大の3D volumetric displayで、最大1600万色のボクセルを備えたインタラクティブ3Dホログラムをサポートしているデバイスです。
従来のディスプレイとは異なり、画面上に映像を投影するのではなく、空間に直接立体的な映像を形成します。
どういう仕組みなのかバラして検証してみたいですね。

■Amazonのドローン配達

Amazonはアリゾナ州トーレソンで新型の小型配達ドローンをテストするためのFAAの承認を取得したそうです。
とうとうドローンが配達し始めましたね。
でも、その高さから落とすんですね……。（そのあと風で転がってる？）

🚨🇺🇸AMAZON'S DRONE DELIVERY GETS FAA GREEN LIGHT

Amazon has secured FAA approval to test its new, smaller delivery drones in Tolleson, Arizona.

These drones promise quieter operations and same-day delivery for over 50,000 products.

Customers in the test area can expect… pic.twitter.com/ecmOCwxEP0
— Mario Nawfal (@MarioNawfal) November 30, 2024

■猫が料理

えっ、ちょ、これ凄いです。
ComfyUIのLTXVideoのI2Vで生成した動画らしいのですが、一貫性もですが、リアルさが半端ないです。
あと可愛い。

https://www.reddit.com/r/StableDiffusion/comments/1h3iyg6/i_never_cook/

本日は以上となります。

それでは、また。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

37,821件