見出し画像

【生成AIニュース】『Grok 3』『Step-Video-T2V』『Sorcery』『AI Logo Generator』『Kimi k1.5』『Awesome LLM Apps』『FLUX.1 [dev] Abliterated』『HYVReward』『HunyClip』『ZeroBench』『DexVLA』

まいどです。
本日の生成AIニュース。


■Grok 3

Grok 3が月曜日の夜 8 時 (太平洋標準時) にライブ デモとともにリリースされると、イーロンマスク氏がXにて投稿しました。
地球上でもっとも賢いAIとまでw
見せてもらおうか。新しいGrokの性能とやらを。(シャ○風)


■Step-Video-T2V

Step-Video-T2V は、最先端 (SoTA) のテキストから動画を生成するオープンソースの (Text-to-Video) 事前学習済みモデルです。
このモデルは30Bパラメータで、544x992x204fの最大204フレームの動画(8秒)を生成できます。
学習と推論の効率を高めるために、深い圧縮VAE (変分オートエンコーダ) を開発し、空間的に16x16倍、時間的に8倍の圧縮率を達成しました。
最終段階では、Direct Preference Optimization (DPO: 直接選好最適化) を適用し、生成される動画の視覚品質をさらに向上させています。
Step-Video-T2V の性能は、新しい動画生成ベンチマーク Step-Video-T2V-Eval で評価され、オープンソースおよび商用エンジンの両方と比較して、SoTA のテキストから動画への品質を示しています。


■Sorcery

Sorcery は、SillyTavern の AI キャラクターを現実世界と繋げる、非常に強力で革新的な拡張機能です。
簡単な設定で、JavaScript コードを通じて様々なデバイスやサービスと連携させることができ、ロールプレイの没入感を大幅に向上させることが期待できます。


■AI Logo Generator

AI Logo Generator は、オープンソースのロゴ生成ツールです。
カスタマイズ可能なスタイルで、プロフェッショナルなロゴを数秒で作成できます。
高品質なロゴを生成し、ビジネス用途にも適しています。


■Kimi k1.5

Kimi k1.5 は、Moonshot AI が開発した高性能なオープンソースLLMであり、特に非常に大きなコンテキストウィンドウと、STEM分野やコーディングにおける優れた能力が特徴です。
無料で利用でき、ChatGPTなどの競合モデルを凌駕する性能を持つとされています。
また、一部ではDeepSeekもも凌駕していると噂されています。


■Awesome LLM Apps

Awesome LLM Apps は、RAG (Retrieval-Augmented Generation) と AI エージェントを使って構築されたLLM (大規模言語モデル) アプリの厳選されたコレクションです。
このリポジトリでは、OpenAI、Anthropic、Google のモデルだけでなく、DeepSeek、Qwen、Llama などのオープンソースモデルを使用した LLM アプリも紹介されており、自分のコンピュータ上でローカルに実行できます。


■FLUX.1 [dev] Abliterated

FLUX.1 [dev] Abliterated は、テキストから画像を生成するAIモデルです。 元のモデルである FLUX.1 [dev] を改造し、拒否メカニズムを取り除く (Abliteration) ことで、より広範囲なプロンプトに対応できるようにしたバージョンです。
但し、元がFLUX.1 [dev]なので、商用利用は出来ません。


■HYVReward

HYVReward は、Stable Diffusion などの画像生成AIモデルで使用するための LoRA (ローラ) モデルの一種です。
画像生成の品質と、プロンプト (指示文) の理解度を向上させることを目的としています。
応用でHunyuanvideoで使用でき、生成する動画の品質も向上させる事が可能です。


■HunyClip

HunyClip は、ビデオのトリミング、クロップ、複製といった基本的な編集機能を備えた、Python製のシンプルなビデオ編集ツールです。
特にHunyuanvideo データセットの作成に特化しているものの、汎用的なビデオ編集ツールとしても利用できます。
キーボードショートカットが充実しており、効率的なビデオ編集作業をサポートします。


■ZeroBench

ZeroBench は、現代の最先端大規模マルチモーダルモデル (LMMs) にとって、事実上不可能となるように設計された、新しい視覚的推論ベンチマークです。
既存の視覚的ベンチマークが急速に進歩するLMMsにとって簡単になりすぎている現状を打開するために提案されました。


■DexVLA

DexVLAは、様々な環境で多様なタスクを実行できる汎用ロボットの実現を目指した、新しいAI技術です。
既存のロボット学習モデルの課題であった動作表現の限界と効率的な学習を克服するために開発されました。
DexVLAの最大の特徴は、拡散モデルをベースとした大規模な動作生成専門家 (Diffusion Expert) を導入し、これをVision-Languageモデル (VLA: 視覚言語モデル) に組み込むことで、様々な種類のロボット (単腕、双腕、多指ハンドなど) で高度なタスクを学習できるようにした点です。


本日は以上となります。

SeaArtAI

それでは、また。

いいなと思ったら応援しよう!

この記事が参加している募集