
【生成AIニュース】『Grok 3』『Step-Video-T2V』『Sorcery』『AI Logo Generator』『Kimi k1.5』『Awesome LLM Apps』『FLUX.1 [dev] Abliterated』『HYVReward』『HunyClip』『ZeroBench』『DexVLA』
まいどです。
本日の生成AIニュース。
■Grok 3
Grok 3が月曜日の夜 8 時 (太平洋標準時) にライブ デモとともにリリースされると、イーロンマスク氏がXにて投稿しました。
地球上でもっとも賢いAIとまでw
見せてもらおうか。新しいGrokの性能とやらを。(シャ○風)
Grok 3 release with live demo on Monday night at 8pm PT.
— Elon Musk (@elonmusk) February 16, 2025
Smartest AI on Earth.
■Step-Video-T2V
Step-Video-T2V は、最先端 (SoTA) のテキストから動画を生成するオープンソースの (Text-to-Video) 事前学習済みモデルです。
このモデルは30Bパラメータで、544x992x204fの最大204フレームの動画(8秒)を生成できます。
学習と推論の効率を高めるために、深い圧縮VAE (変分オートエンコーダ) を開発し、空間的に16x16倍、時間的に8倍の圧縮率を達成しました。
最終段階では、Direct Preference Optimization (DPO: 直接選好最適化) を適用し、生成される動画の視覚品質をさらに向上させています。
Step-Video-T2V の性能は、新しい動画生成ベンチマーク Step-Video-T2V-Eval で評価され、オープンソースおよび商用エンジンの両方と比較して、SoTA のテキストから動画への品質を示しています。
StepFun open-sources Step-Video-T2V, a SotA 30B text-to-video model
— Aran Komatsuzaki (@arankomatsuzaki) February 17, 2025
- Capable of understanding both Chinese and English prompts
- Generates high-quality videos
- Featuring strong motion dynamics, high aesthetics, and consistent content pic.twitter.com/1fDOaJcaJS
■Sorcery
Sorcery は、SillyTavern の AI キャラクターを現実世界と繋げる、非常に強力で革新的な拡張機能です。
簡単な設定で、JavaScript コードを通じて様々なデバイスやサービスと連携させることができ、ロールプレイの没入感を大幅に向上させることが期待できます。
Sorcery: Allow AI characters to reach into the real world. From the creator of DRY and XTC. pic.twitter.com/QMB2aWMlH7
— Dimitri Zhorzholiani (@dimitrizho) February 17, 2025
■AI Logo Generator
AI Logo Generator は、オープンソースのロゴ生成ツールです。
カスタマイズ可能なスタイルで、プロフェッショナルなロゴを数秒で作成できます。
高品質なロゴを生成し、ビジネス用途にも適しています。
Logo generator, but open-source, self-host, AI powered plus you get no-watermark :)https://t.co/9K0jvq0PkD pic.twitter.com/1OXUxtqa45
— GitHub Projects Community (@GithubProjects) February 16, 2025
■Kimi k1.5
Kimi k1.5 は、Moonshot AI が開発した高性能なオープンソースLLMであり、特に非常に大きなコンテキストウィンドウと、STEM分野やコーディングにおける優れた能力が特徴です。
無料で利用でき、ChatGPTなどの競合モデルを凌駕する性能を持つとされています。
また、一部ではDeepSeekもも凌駕していると噂されています。
■Awesome LLM Apps
Awesome LLM Apps は、RAG (Retrieval-Augmented Generation) と AI エージェントを使って構築されたLLM (大規模言語モデル) アプリの厳選されたコレクションです。
このリポジトリでは、OpenAI、Anthropic、Google のモデルだけでなく、DeepSeek、Qwen、Llama などのオープンソースモデルを使用した LLM アプリも紹介されており、自分のコンピュータ上でローカルに実行できます。
I built a Deepseek R1 RAG Reasoning Agent running locally on my computer.
— Shubham Saboo (@Saboo_Shubham_) February 16, 2025
It's an Agentic RAG reasoning agent that can think, reason and fall back to web search if needed.
100% Opensource code with step-by-step tutorial. pic.twitter.com/2OQ1TRvOfj
■FLUX.1 [dev] Abliterated
FLUX.1 [dev] Abliterated は、テキストから画像を生成するAIモデルです。 元のモデルである FLUX.1 [dev] を改造し、拒否メカニズムを取り除く (Abliteration) ことで、より広範囲なプロンプトに対応できるようにしたバージョンです。
但し、元がFLUX.1 [dev]なので、商用利用は出来ません。
■HYVReward
HYVReward は、Stable Diffusion などの画像生成AIモデルで使用するための LoRA (ローラ) モデルの一種です。
画像生成の品質と、プロンプト (指示文) の理解度を向上させることを目的としています。
応用でHunyuanvideoで使用でき、生成する動画の品質も向上させる事が可能です。
■HunyClip
HunyClip は、ビデオのトリミング、クロップ、複製といった基本的な編集機能を備えた、Python製のシンプルなビデオ編集ツールです。
特にHunyuanvideo データセットの作成に特化しているものの、汎用的なビデオ編集ツールとしても利用できます。
キーボードショートカットが充実しており、効率的なビデオ編集作業をサポートします。
Preparing LoRA models for Hunyuan? This tool simplifies dataset creation:
— AI Primus (@primus_ai) February 17, 2025
✅ Cropping
✅ Video Framing
✅ Multiple Clips from One Source
✅ Save Cropped/Uncropped Videos & Images for Auto-Annotation!https://t.co/HnHlCm7ezd pic.twitter.com/kbWdmo1CYR
■ZeroBench
ZeroBench は、現代の最先端大規模マルチモーダルモデル (LMMs) にとって、事実上不可能となるように設計された、新しい視覚的推論ベンチマークです。
既存の視覚的ベンチマークが急速に進歩するLMMsにとって簡単になりすぎている現状を打開するために提案されました。
■DexVLA
DexVLAは、様々な環境で多様なタスクを実行できる汎用ロボットの実現を目指した、新しいAI技術です。
既存のロボット学習モデルの課題であった動作表現の限界と効率的な学習を克服するために開発されました。
DexVLAの最大の特徴は、拡散モデルをベースとした大規模な動作生成専門家 (Diffusion Expert) を導入し、これをVision-Languageモデル (VLA: 視覚言語モデル) に組み込むことで、様々な種類のロボット (単腕、双腕、多指ハンドなど) で高度なタスクを学習できるようにした点です。
Cobot Magic + DexVLA = next-level robot learning! 🌟 Adapt to any task, any robot, with ease. 🚀 Check out how we’re shaping the future of automation:
— AgileX Robotics (@AgilexRobotics) February 17, 2025
DexVLA : https://t.co/BWaNIrRldb
Cobot Magic : https://t.co/uo1YXE3RzB#Robotics #AI #robotarm #vla pic.twitter.com/RiODv7OetT
本日は以上となります。

それでは、また。