見出し画像

【生成AIニュース】『ComfyUI v0.2.0』『v0続報』他

まいどです。
それでは、本日の生成AIニュース。


■ComfyUI v0.2.0


先日お伝えしたComfyUIの最新バージョンの情報はこちらです。

https://github.com/comfyanonymous/ComfyUI

■v0続報


mp3 および wav 添付ファイルのアップロードがサポートされるようになったとの事。

https://v0.dev/chat/b/ILG5VA2

■fastsdcpu


FastSD v1.0.0-beta.50がリリースされました。
Intel AI PC NPU、GPUをサポートしているとの事。

■figurix


StableDiffusion、ComfyUI、Ttipo AIをなどを使用し、写真を3Dキャラクターにするジェネレーターが登場しました。

■tripo3d.ai


テキストや画像をすぐに使える3Dモデルに生成してくれるAIの「tripo3d」がより高い精度でマルチビューから3Dモデルの生成が可能になったとの事。

■Easy Voice Toolkit


オープンソースの、音声モデルトレーニングツールで、日本語もサポートしているとの事。

■text-guided-image-colorization


SDXL用のプロジェクトで、画像をカラー化するためのものです。
特に、ユーザーが画像内のオブジェクトの色を指定できる点が特徴的です。

■Openperplex


多機能かつ、柔軟性を持つ、ウェブ検索 APIになります。

https://github.com/YassKhazzan/openperplex_backend_os

■llama.cpp


RWKV v6 モデルのサポートが llama.cpp に統合されたとの事。

■RP1M


ロボットがピアノを弾く際の動きを大規模に集めたデータセットです。
具体的には、2,000曲以上のピアノ曲を、ロボットが両手で弾く際の動きを100万回以上記録しているそうです。

■SkillMimic


人間とボールの動きを模倣することで、様々なバスケットボールスキルをロボットに学習させ、ロボットが人間と同じように、バスケットボールなどの運動スキルを習得するという事を目指したワークフローです。

■RetNPhi


Microsoft の Phi-3.5 をベースに、RetNet の要素を組み込んだバイトレベルの言語モデルです。

■Dune: Cinematics & Aesthetics


Flux.1用のLoRAになります。
こちらを使うと、映画「Dune」のスタイルで画像を生成でき、Fremen 人々の服装やアクセサリーなど、美学に重点を置いて映画的な雰囲気を捉えることができます。

■F.A.C.U.L.


ゲームNPCで初の音声指示が可能なFPS AIが登場したとの事。


本日は以上となります。
現在、生成AIでは「v0」が最もホットな話題になっております。
「v0」は、Vercelが提供するAIを活用した、革新的なUIデザインツールです。
言葉でUIを作れたり、デザインのバリエーションが豊富だったり、カスタマイズが簡単だったりします。
フロントエンド開発者やノーコードでアプリを作りたい人にはとても役立つAIプラットフォームです。
UIデザインの未来を大きく変える可能性を秘めていることから、AIに関心を持つ方々には非常に興味深く研究されています。
と、「v0」について細かく書くととても簡潔には収めきれないので、ご興味がある方は下記サイト等をご覧ください。

それでは、また。

この記事が気に入ったらサポートをしてみませんか?