見出し画像

Weekly Report 2024/09/25 (wed)

個人的に気になったニュースや自主制作などの週報メモです。


自主制作 / 記事

Elemental Anima #0154

先日、新江ノ島水族館の「“えのすい”のくらげ展」に行ってきました。そこで観たミズクラゲとパシフィックシーネットルが美しかったので、今作のモチーフにしました。ちょうど秋分だったのもあり、昼と夜を踊りながら混ぜ合わせているクラゲをテーマにしました。配色や構図は、Elemental Anima #0100を元にしています。久しぶりの水族館がずっと居られるぐらい楽しすぎました。HAL(AI)の学習用の写真も大量に撮影したので、これから海の生物の表現力はかなり向上すると思います。これからもHAL(AI)のデータセットを収集する目的も含めて色々な水族館をめぐりたいです。

作業BGM:久石譲『海獣の子供 オリジナル・サウンドトラック』


[データセット] 新江ノ島水族館「“えのすい”のくらげ展」


[ニュース] AI関連

[企業] Stability AI - ジェームズ・キャメロンがStability AIのボードメンバーに就任

元Weta DigitalのCEO Prem Akkarajuからの繋がりですかね。新しいテクノロジーを駆使した表現が好きですし、AIとは色々な意味でつながりが深いですから納得感はあります。名前だけという気もしますが、StableDiffusionの表現力、CG・映画業界への影響力など様々な面で展開が気になります。3作目のアバターのスタッフロールも楽しみです。


[動画] Kling AI - 1.5 Model

動画生成サービスでMotionBrushを一番最初に実装したのはKlingでしたね。1080pHDでの生成も出来るようになりましたし、コストは他のサービスに比べて低いのでKlingはかなり強いです。


[動画] Runway - Gen-3 Alpha Vertical video generations

縦動画の生成に対応しました。縦映像を制作する機会があったのですが、もうちょっと早めに実装してくれたら…。


[動画] Runway - Gen-3 Alpha Video to Video Tutorial

VideoToVideoはかなり可能性が広がりますね。ローカルのCog-Xでも出来るようになればいいなぁ。


[動画] ByteDance - PixelDance

TikTokのByteDanceが遂に動画生成モデルを公開するそうです。まだ詳しい情報は出てませんが楽しみですね。


[3D] Tripo - Tripo 2.0

アップデートにより動画からも3Dオブジェクト生成が出来るようになりましたね。精度も向上し、API連携も出来るようになったりかなり進化しています。


[LLM] OpenAI - Advanced Voice

「Advanced Voice Mode」をすべてのPlusユーザー向けに提供開始すると発表。今度アメリカの親戚が日本に来るので活用してみたいと思います。


[3D] Alibaba - MIMO

WonderStudioのAlibabaさんバージョンですね。早い動きでもノイズが少なくなっていてすごいですね。使ってみたいです。

[画像] Invoke 5.0 Update

Control Canvasは便利過ぎますね。あとFlux.1も扱えるようになったのも大きいです。


[LLM] Google - Geminiアップデートモデルのリリースを発表

LLM関係は殆どGeminiにしているので、性能良くなった上に、コストが下がるのはありがたすぎます。


[3D] Expressive Whole-Body 3D Gaussian Avatar

ExAvatarのコードが遂に公開されました。ComfyUIに誰か実装してくれないかな。


[AI活用] Real shoot + AR + video-to-video

この活用の仕方は面白いですね。ARは少し浮いてしまうので、それをVideoToVideoで馴染ませるアプローチは素晴らしいです。


[LLM] Alibaba - Qwen 2.5

商用利用可能なオープンソースLLMです。オープンソースモデルの中でも性能がかなり高く、ComfyUIにも実装している方も出てきているのでプロンプト制作も含めたワークフローを組んでみようと思います。


[モーション] nVidia - MaskedMimic

様々なシチュエーションに対応し、トラッキングやテキストなどを元にモーションを生成するフレームワークです。オブジェクトに対してテキストで指示してモーションを生成出来るのは凄いですね。コードが待ち遠しいです。


[3D] SPARK: Self-supervised Personalized Real-time Monocular Face Capture

動画からこの精度のフェイスキャプチャーが出来るのは凄いです。


[音楽] Awesome Open-source Text-to-music (TTM) generation: QA-MDT (OpenMusic)

オープンソース音楽生成AI"OpenMusic"。デモも気軽に使えるので良かったら是非。


[ComfyUI] Tokyo ComfyUI Meet Up/東京ComfyUI 交流イベント

仕事的に間に合いそうでしたら参加しようと思います。


[動画] Tencent - LVCD: Reference-based Lineart Video Colorization with Diffusion Models

アニメの原画や動画の線画に1フレーム画像を元に自動で着彩するフレームワーク。アニメ業界で活用するようになる時は来るのでしょうか?


[3D] Instant Texture

頂点カラーのobjメッシュをUV展開し、テクスチャーをマッピングしたglbメッシュに変換してくれるライブラリ。この方向で広げて下さい・・・。


[音] Dolby - Audio Match Cutting

映画やビデオの音声トランジションの生成。ドルビーもAIを活用したフレームワークを検証しているんですね。


[記事] Why Flux LoRA So Hard to Train and How to Overcome It?

FLAX環境を構築して、かなり色々検証しているのですがLoRA学習はまだうまくいかないですね。その理由が記事になっていてありがたいです。


[記事] アップル「M4 Mac」「iPad mini 7」「iPad 11」発表か 10月のイベントで

iPhone以外のApple Interigenceの活用も観れそうで楽しみです。


[記事] Sam Altman - The Intelligence Age

"ヒトとAI"のポジティブな未来へ繋がっていくように、よろしくお願いいたします。


[ニュース] CG・ゲーム・リアルタイムエンジン関連

[Blender] 3D camera tracking and LiDAR scanning solution for VFX : Omniscient


[Unity] Time Ghost | Unity 6

いいなと思ったら応援しよう!