Weekly Report 2024/09/25 (wed)

2024年9月25日 14:36

個人的に気になったニュースや自主制作などの週報メモです。

自主制作 / 記事

Elemental Anima #0154

Elemental Anima #0154

Created by :
takio koizumi (Human) x HAL (AI)

🔽Detail / Link pic.twitter.com/Zj7rbCVEVC
— takio koizumi | takion.eth (@takion0105) September 21, 2024

先日、新江ノ島水族館の「“えのすい”のくらげ展」に行ってきました。そこで観たミズクラゲとパシフィックシーネットルが美しかったので、今作のモチーフにしました。ちょうど秋分だったのもあり、昼と夜を踊りながら混ぜ合わせているクラゲをテーマにしました。配色や構図は、Elemental Anima #0100を元にしています。久しぶりの水族館がずっと居られるぐらい楽しすぎました。HAL(AI)の学習用の写真も大量に撮影したので、これから海の生物の表現力はかなり向上すると思います。これからもHAL(AI)のデータセットを収集する目的も含めて色々な水族館をめぐりたいです。

作業BGM：久石譲『海獣の子供オリジナル・サウンドトラック』

[データセット] 新江ノ島水族館「“えのすい”のくらげ展」

【水族館】
新江ノ島水族館
“えのすい”のくらげ展https://t.co/YUfwu3ohrb… pic.twitter.com/Isf2ezdUjg
— takio koizumi | takion.eth (@takion0105) September 21, 2024

[ニュース] AI関連

[企業] Stability AI - ジェームズ・キャメロンがStability AIのボードメンバーに就任

元Weta DigitalのCEO Prem Akkarajuからの繋がりですかね。新しいテクノロジーを駆使した表現が好きですし、AIとは色々な意味でつながりが深いですから納得感はあります。名前だけという気もしますが、StableDiffusionの表現力、CG・映画業界への影響力など様々な面で展開が気になります。3作目のアバターのスタッフロールも楽しみです。

[動画] Kling AI - 1.5 Model

Get all the juicy update details and how-to's in just one video! 🚀 Watch now and stay ahead of the game! 👇 https://t.co/7NgzvSNi5i pic.twitter.com/jdtcJwX0ws
— Kling AI (@Kling_ai) September 19, 2024

動画生成サービスでMotionBrushを一番最初に実装したのはKlingでしたね。1080pHDでの生成も出来るようになりましたし、コストは他のサービスに比べて低いのでKlingはかなり強いです。

[動画] Runway - Gen-3 Alpha Vertical video generations

Vertical video generations are now available to all users with Gen-3 Alpha Turbo. pic.twitter.com/h4kk8mqrUO
— Runway (@runwayml) September 20, 2024

縦動画の生成に対応しました。縦映像を制作する機会があったのですが、もうちょっと早めに実装してくれたら…。

[動画] Runway - Gen-3 Alpha Video to Video Tutorial

Transform existing videos with new styles, lighting, textures and treatments using Gen-3 Alpha Video to Video.

Learn how in today's Runway Academy. pic.twitter.com/jNSmFN6W69
— Runway (@runwayml) September 19, 2024

VideoToVideoはかなり可能性が広がりますね。ローカルのCog-Xでも出来るようになればいいなぁ。

[動画] ByteDance - PixelDance

Today, ByteDance released two new Dit video models:
Seaweed and PixelDance V1.4！
PixelDance V1.4:
t2v
i2v
10s.
The model has excellent semantic understanding abilities, easily handling complex story narratives and delicate emotional expressions. pic.twitter.com/GGkikihlsq
— 青龍聖者 (@bdsqlsz) September 24, 2024

TikTokのByteDanceが遂に動画生成モデルを公開するそうです。まだ詳しい情報は出てませんが楽しみですね。

[3D] Tripo - Tripo 2.0

🥳Tripo 2.0 is now officially available on both Web App and API platform.
Enjoy the most powerful and advanced 3D foundation model, developed by our amazing @vastairesearch. pic.twitter.com/vty4BmpeMH
— Tripo (@tripoai) September 19, 2024

アップデートにより動画からも3Dオブジェクト生成が出来るようになりましたね。精度も向上し、API連携も出来るようになったりかなり進化しています。

[LLM] OpenAI - Advanced Voice

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024

「Advanced Voice Mode」をすべてのPlusユーザー向けに提供開始すると発表。今度アメリカの親戚が日本に来るので活用してみたいと思います。

[3D] Alibaba - MIMO

WonderStudioのAlibabaさんバージョンですね。早い動きでもノイズが少なくなっていてすごいですね。使ってみたいです。

[画像] Invoke 5.0 Update

Control Canvasは便利過ぎますね。あとFlux.1も扱えるようになったのも大きいです。

[LLM] Google - Geminiアップデートモデルのリリースを発表

LLM関係は殆どGeminiにしているので、性能良くなった上に、コストが下がるのはありがたすぎます。

[3D] Expressive Whole-Body 3D Gaussian Avatar

ExAvatarのコードが遂に公開されました。ComfyUIに誰か実装してくれないかな。

[AI活用] Real shoot + AR + video-to-video

Trying Real shoot + AR + video-to-video
🤯🤯🤯🤯 pic.twitter.com/3Qfcp2sq5q
— Ramón Teleco (@ramonteleco) September 21, 2024

この活用の仕方は面白いですね。ARは少し浮いてしまうので、それをVideoToVideoで馴染ませるアプローチは素晴らしいです。

[LLM] Alibaba - Qwen 2.5

商用利用可能なオープンソースLLMです。オープンソースモデルの中でも性能がかなり高く、ComfyUIにも実装している方も出てきているのでプロンプト制作も含めたワークフローを組んでみようと思います。

[モーション] nVidia - MaskedMimic

様々なシチュエーションに対応し、トラッキングやテキストなどを元にモーションを生成するフレームワークです。オブジェクトに対してテキストで指示してモーションを生成出来るのは凄いですね。コードが待ち遠しいです。

[3D] SPARK: Self-supervised Personalized Real-time Monocular Face Capture

動画からこの精度のフェイスキャプチャーが出来るのは凄いです。

[音楽] Awesome Open-source Text-to-music (TTM) generation: QA-MDT (OpenMusic)

オープンソース音楽生成AI"OpenMusic"。デモも気軽に使えるので良かったら是非。

[ComfyUI] Tokyo ComfyUI Meet Up/東京ComfyUI 交流イベント

仕事的に間に合いそうでしたら参加しようと思います。

[動画] Tencent - LVCD: Reference-based Lineart Video Colorization with Diffusion Models

アニメの原画や動画の線画に1フレーム画像を元に自動で着彩するフレームワーク。アニメ業界で活用するようになる時は来るのでしょうか？

[3D] Instant Texture

頂点カラーのobjメッシュをUV展開し、テクスチャーをマッピングしたglbメッシュに変換してくれるライブラリ。この方向で広げて下さい・・・。

[音] Dolby - Audio Match Cutting

映画やビデオの音声トランジションの生成。ドルビーもAIを活用したフレームワークを検証しているんですね。

[記事] Why Flux LoRA So Hard to Train and How to Overcome It?

FLAX環境を構築して、かなり色々検証しているのですがLoRA学習はまだうまくいかないですね。その理由が記事になっていてありがたいです。

[記事] アップル「M4 Mac」「iPad mini 7」「iPad 11」発表か　10月のイベントで

iPhone以外のApple Interigenceの活用も観れそうで楽しみです。

[記事] Sam Altman - The Intelligence Age

"ヒトとAI"のポジティブな未来へ繋がっていくように、よろしくお願いいたします。

Weekly Report 2024/09/25 (wed)

自主制作 / 記事

Elemental Anima #0154

[データセット] 新江ノ島水族館「“えのすい”のくらげ展」

[ニュース] AI関連

[企業] Stability AI - ジェームズ・キャメロンがStability AIのボードメンバーに就任

[動画] Kling AI - 1.5 Model

[動画] Runway - Gen-3 Alpha Vertical video generations

[動画] Runway - Gen-3 Alpha Video to Video Tutorial

[動画] ByteDance - PixelDance

[3D] Tripo - Tripo 2.0

[LLM] OpenAI - Advanced Voice

[3D] Alibaba - MIMO

[画像] Invoke 5.0 Update

[LLM] Google - Geminiアップデートモデルのリリースを発表

[3D] Expressive Whole-Body 3D Gaussian Avatar

[AI活用] Real shoot + AR + video-to-video

[LLM] Alibaba - Qwen 2.5

[モーション] nVidia - MaskedMimic

[3D] SPARK: Self-supervised Personalized Real-time Monocular Face Capture

[音楽] Awesome Open-source Text-to-music (TTM) generation: QA-MDT (OpenMusic)

[ComfyUI] Tokyo ComfyUI Meet Up/東京ComfyUI 交流イベント

[動画] Tencent - LVCD: Reference-based Lineart Video Colorization with Diffusion Models

[3D] Instant Texture

[音] Dolby - Audio Match Cutting

[記事] Why Flux LoRA So Hard to Train and How to Overcome It?

[記事] アップル「M4 Mac」「iPad mini 7」「iPad 11」発表か　10月のイベントで

[記事] Sam Altman - The Intelligence Age

[ニュース] CG・ゲーム・リアルタイムエンジン関連

[Blender] 3D camera tracking and LiDAR scanning solution for VFX : Omniscient

[Unity] Time Ghost | Unity 6

いいなと思ったら応援しよう！

Weekly Report 2024/09/25 (wed)

自主制作 / 記事

Elemental Anima #0154

[データセット] 新江ノ島水族館「“えのすい”のくらげ展」

[ニュース] AI関連

[企業] Stability AI - ジェームズ・キャメロンがStability AIのボードメンバーに就任

[動画] Kling AI - 1.5 Model

[動画] Runway - Gen-3 Alpha Vertical video generations

[動画] Runway - Gen-3 Alpha Video to Video Tutorial

[動画] ByteDance - PixelDance

[3D] Tripo - Tripo 2.0

[LLM] OpenAI - Advanced Voice

[3D] Alibaba - MIMO

[画像] Invoke 5.0 Update

[LLM] Google - Geminiアップデートモデルのリリースを発表

[3D] Expressive Whole-Body 3D Gaussian Avatar

[AI活用] Real shoot + AR + video-to-video

[LLM] Alibaba - Qwen 2.5

[モーション] nVidia - MaskedMimic

[3D] SPARK: Self-supervised Personalized Real-time Monocular Face Capture

[音楽] Awesome Open-source Text-to-music (TTM) generation: QA-MDT (OpenMusic)

[ComfyUI] Tokyo ComfyUI Meet Up/東京ComfyUI 交流イベント

[動画] Tencent - LVCD: Reference-based Lineart Video Colorization with Diffusion Models

[3D] Instant Texture

[音] Dolby - Audio Match Cutting

[記事] Why Flux LoRA So Hard to Train and How to Overcome It?

[記事] アップル「M4 Mac」「iPad mini 7」「iPad 11」発表か 10月のイベントで

[記事] Sam Altman - The Intelligence Age

[ニュース] CG・ゲーム・リアルタイムエンジン関連

[Blender] 3D camera tracking and LiDAR scanning solution for VFX : Omniscient

[Unity] Time Ghost | Unity 6

いいなと思ったら応援しよう！

[記事] アップル「M4 Mac」「iPad mini 7」「iPad 11」発表か　10月のイベントで