【生成AIニュース】『Hunyuan3D-2.0GP』『Gemini Thinking experimental 01-21』『InvokeAI v5.6.0』『Sonara』『VideoWorld』『Arch』『Regional Prompt Upscaler』『X-Dyna』『Extract』『Doubao-1.5-pro』『Vmake.ai』『The Stargate Project』
まいどです。
本日の生成AIニュース。
■Hunyuan3D-2.0GP
Hunyuan3D-2.0GP は、3Dアセットと呼ばれる 3D グラフィックを作成するための AI システムです。
従来の 3D アセット作成ソフトは高価で動作に高性能なコンピュータが必要でしたが、Hunyuan3D-2.0GP は一般のパソコンでも動作するように軽量化されています。
Hunyuan3D-2.0GP は、静止画やテキストを入力として、3D アセットを生成することができます。
生成された 3D アセットは、色やテクスチャー、光沢など細かい情報まで表現することができ、とてもリアルに見えます。
また、Hunyuan3D-2 を ComfyUIで使えるようにするラッパーも既に登場しています。
■Gemini Thinking experimental 01-21
Gemini Thinking experimental 01-21という新しいモデルがリリースされました。
このモデルはテスト段階の物ながら、コンテキストウィンドウが100万トークンを超えており、非常に長いテキストを一度に記憶し、理解できるよう調整されており、ほぼo1レベル、とも言われています。
下記から使うことが出来ます。
■InvokeAI v5.6.0
InvokeAIは、AIを活用した画像生成ツールで、オープンソースプロジェクトとして開発されています。
最新のリリース(v5.6.0rc2)では、シングルクリックインストーラーとメモリ管理の大幅な改善が行われました。
低VRAM(ビデオメモリ)モードが導入され、比較的小さなGPUでも大規模なモデル(Fluxなど)を実行できるようになりました。
■Sonara
Sonaraは、Perplexityによって提供されるAI検索エンジンAPIの一つです。
このAPIは、製品やサービスに迅速かつ低価格で検索機能を組み込むことを可能にします。
Sonaraは、特にマーケティングや営業チームがターゲット企業のリサーチを行う際に有用で、他の構造化されたデータソースからは容易に入手できない情報を見つけ出すことができます。
これにより、企業は週に代表者一人あたり8時間のリサーチ時間を節約し、全体のスループットを20%向上させることができました。
また、Sonaraは最新の情報を要約するAI市場のリーダーとしても評価されており、例えば医師向けには最新の結果を提供し、患者のケアを改善するために役立っています。
■VideoWorld
VideoWorldは、大規模言語モデル(LLM)のようにテキストデータではなく、生のビデオデータのみから複雑な知識を学習できるかどうかを探求したフレームワークです。
つまり、AIが人間のように視覚情報だけで高度な知識を獲得できるかという問いに挑戦しています。
従来のAI研究は、テキストベースの学習、特にLLMに大きく焦点を当ててきました。
しかし、人間を含む生物は、主に視覚情報を通して知識を獲得します。
具体的には、「VideoWorld」という自己回帰ビデオ生成モデルを開発し、ビデオベースの囲碁とロボット制御のタスクでその知識獲得能力をテストしています。
■Arch
Archは、プロンプト(AIへの指示文)を対象としたインテリジェントプロキシサーバーです。
簡単に言えば、AIアプリケーションと、その背後で動作する大規模言語モデル(LLM)との間に入る仲介役のようなものです。
従来のWeb通信では、HTTPプロキシサーバーが通信の制御や管理を行っていますが、Archはそれと同様の機能をプロンプトに対して提供します。
■Regional Prompt Upscaler
Regional Prompt Upscalerは、Automatic1111とForgeで使用できる無料の画像アップスケーラーツールです。
このツールは、画像を拡大し、詳細を追加する際に、画像の各領域に特化したプロンプト(テキスト記述)を自動的に適用することで、より高品質なアップスケールを実現します。
■X-Dyna
X-Dyna は、静止画の人体画像から、表情や動きのある動画を生成するフレームワークです。
入力として、静止画の人体画像と、別の動画から抽出した表情や身体の動き情報を与えます。
そして、あたかも元の画像の人が実際に動いているかのような、リアルで躍動感あふれる動画を生成します。
■Extract
Firecrawl.devのExtractは、AIを活用したウェブスクレイピングツールを提供するサイトです。
自然言語プロンプトを使用して、任意のウェブサイトから構造化データを抽出できます。
また、従来の手動スクレイピングや脆弱なスクリプトの問題を解決し、サイトの更新に自動的に適応します。
こちらは、無料プランから企業向けカスタムプランまで、ビジネスの規模に応じた料金体系を提供しています。
■Doubao-1.5-pro
Doubao-1.5-pro は、大規模言語モデル(LLM)の一種であり、特に性能と推論速度のバランスに重点を置いて開発されています。
MoE(Mixture of Experts)アーキテクチャを採用し、限られた計算資源でも高い性能を発揮できるように設計されています。
■Vmake.ai
Vmake.aiは、クリエイター向けの動画編集・加工AIツールを提供するウェブサイトです。
低品質の動画を4Kや30FPSなどの高解像度に変換したり、動画から透かしやロゴ、ブランディング要素を消去したり、ワンクリックで動画の背景を削除し、緑色や透明な背景に置き換えできたりします。
AIを活用した字幕生成、AIキャラクターによる製品紹介、写真から動画を作成する機能なども提供しており、ユーザーの動画制作プロセスを効率化し、コンテンツの質を向上させることを目的としています。
■The Stargate Project
The Stargate Projectは、OpenAI、SoftBank、Oracle、およびMGXによって設立されたアメリカの人工知能(AI)企業です。
このプロジェクトは、2029年までにアメリカ合衆国に最大5000億ドルを投資し、AIインフラを構築することを目指しています。
このプロジェクトは、2025年1月21日にアメリカのドナルド・トランプ大統領によって発表されました。
SoftBankの孫正義氏がこのプロジェクトの会長を務めます。
本日は……Zzz……以上……となります。
……ああ……今日はなんだかとても眠いので、ちょっと調べ不足ですが……ここで……終わります……。
漏れたトピックで……話題になるようなものは……また……あし……た…………Zzz…………。
それでは、また。Zzz……。