見出し画像

【生成AIニュース】『Geminiアプリアップデート』『o3-mini』『NVIDIA+DeepSeek-R1』『Storyblocker V2』『PixVerse 3.5』『LLM API Engine』『Brush』『VEED』『VisoMaster』『YuEを低VRAMで』『SwarmUI v0.9.5』『Kokoro on browser』『LLPlayer』

まいどです。
本日の生成AIニュース。


■Geminiアプリアップデート

Geminiアプリがアップデートされ、モデルにGemini 2.0 Flashが搭載されました。
プレミアム ユーザーは 100 万トークン (1M) のコンテキスト ウィンドウをサポートし、最大 1,500 ページのファイル アップロードを処理できます。
また、Geminiアプリの画像生成がImagen 3にアップグレードされ、より洗練された画像が生成できるようになりました。
既存の Gemini 1.5 Flash および 1.5 Pro バージョンは、移行中のユーザーをサポートするために数週間は引き続きサポートされるそうです。


■o3-mini

遂にo3-miniがリリースされました。
o3-miniはOpenAIが開発した最新のAIモデルで、STEM(科学、技術、工学、数学)関連の問題、特にプログラミング、数学、科学に特化して調整されています。
「o3」ファミリーの推論モデルの中で最新のものであり、「o1」ファミリーと比較して、推論タスクにおける性能が向上しています。
特に、「o3-mini」は中程度の推論努力で設定されており、これが速度と精度のバランスを提供します。
有料ユーザーは「o3-mini-high」を選択することで、より高い知能を得ることができますが、応答速度は遅くなります。
OpenAIは、このモデルをChatGPTの無料ユーザーにも利用可能にすることで、最先端のAI能力をコストバリアなしに多くのユーザーに提供しています。
無料ユーザーは「o3-mini」を利用できますが、有料のChatGPT PlusやTeamプランに加入しているユーザーは、1日あたり150クエリの高いレート制限を享受できます。
また、ChatGPT Proの加入者は無制限のアクセスが可能です。
企業や教育機関向けのChatGPT EnterpriseとChatGPT Eduのユーザーには、1週間以内に提供される予定です。

https://openai.com/index/openai-o3-mini/


■NVIDIA+DeepSeek-R1

NVIDIAがDeepSeek-R1をNVIDIA NIM(NVIDIA Inference Microservice)として提供開始しました。
DeepSeek-R1は、高度な推論能力を持つオープンなモデルであり、特に「テスト時スケーリング」と呼ばれる手法を用いることで、より良い回答を生成します。
DeepSeek-R1をNIMマイクロサービスとして提供することで、開発者が高度な推論能力を持つ大規模言語モデルを容易に利用できるようにしました。


■Storyblocker V2

Storyblocker V2は、独自のワールド エンジン、Text-to-3D + VID2VID を使用すると、仮想世界の作成、アイデアのモックアップ、魅力的な仮想制作環境の構築が可能になります。
これらはすべて AI によって実現されます。


■PixVerse 3.5

PixVerse 3.5は、Freepik AI Suiteの一部として提供される最新のAIビデオ生成ツールです。
アニメ、サイバーパンク、3Dアニメーション、クレイ、またはコミックなどのスタイルを選び、さらにカスタムシードを追加することで一貫性を持たせて、精密に創作することができます。
これにより、自分のビジョンに合わせた映像を生成することが可能です。
また、生成される映像の品質が向上し、トランジションがスムーズで、モーションが自然になりました。さらに、リップシンク機能やスタイルに基づく映像生成などの新機能も追加されています。

https://www.freepik.com/ai


■LLM API Engine

LLM API Engineは、大規模言語モデル(LLM)とWebスクレイピング技術を活用して、Webサイトから構造化データを抽出するカスタムAPIを簡単に作成・デプロイできるツールです。
自然言語による記述で必要なデータを指定するだけで、APIを構築できる点が大きな特徴です。
抽出したいデータを自然言語で記述するだけでAPIを作成できます。
また、OpenAIを利用してJSONスキーマを自動生成します。
スケジュールされたスクレイピングでデータをリアルタイムに更新することも可能です。


■Brush

Brushは多様なプラットフォームで動作する、効率的かつインタラクティブな3D再構築エンジンです。特に、機械学習とリアルタイムレンダリングの両面から、現代的な3Dビジュアライゼーションやシーン再構築のアプリケーションに適しているという点が大きな特徴です。
macOS、Windows、Linuxはもちろん、AMD、Nvidia、Intelの各種GPU、Android、さらにはWebブラウザ上(Chrome 131以降)でも動作します。
Brushは機械学習を利用して、リアルタイムに3Dシーンの再構築を行います。
これにより、トレーニング中の動きをインタラクティブに観察したり、評価用のビューと比較したりすることができます。
そして、COLMAPやNerfstudio形式のデータ(transforms.jsonを含む)を読み込むことができ、マスク画像のサポートも行っています。
透明度情報を活かした処理が可能なため、細かい表現ができます。


■VEED

VEEDは、オンラインで利用できる動画編集プラットフォームです。
AIを活用した機能が豊富で、プロレベルの動画を誰でも簡単に作成できることを目指しています。
視線追跡、他言語翻訳、テキストプロンプトからの動画生成など、AIを活用した高度な編集機能が搭載されています。
また、ワンクリックで字幕を自動生成できます。
AIを使って動画の音声を別の言語に吹き替えることも可能です。
他にも様々な機能があり、動画編集初心者からプロまで、幅広いユーザーが利用できるプラットフォームです。


■VisoMaster

VisoMasterは、画像と動画の顔交換および編集を行うための、強力かつ使いやすいツールです。
AIを活用しており、最小限の労力で自然な結果を生み出すため、カジュアルユーザーにもプロフェッショナルにも最適です。
かなり手軽なわりには、非常に高精度です。


■YuEを低VRAMで

何度かご紹介しているオープンソースの音楽生成AIモデルYuEですが、頻繁に更新されており、低VRAMプロファイルの速度改善などがなされています。
具体的には、低VRAMプロファイルでの処理速度が向上しており、これは、transformersライブラリへのパッチ適用によるものです。
GPU性能が低い環境でも動作するように、YuE GP(YuE for the GPU Poor)バージョンが追加されました。
低VRAM環境での速度改善のために、transformersライブラリへのパッチが提供されています。
このパッチは、仮想環境のtransformersフォルダにコピーするか、提供されているスクリプト(patchtransformers.shまたはpatchtransformers.bat)を実行することで適用できます。
結果として10GB未満のVRAMでも生成自体が可能になっています。
但し、低VRAMだと生成速度は遅いです。


■SwarmUI v0.9.5

SwarmUI v0.9.5がリリースされました。
SwarmUI (以前はStableSwarmUIとして知られていました) は、モジュール式のAI画像生成Webユーザーインターフェースです。
強力なツールへのアクセス、高いパフォーマンス、拡張性を重視しており、Stable Diffusion、FluxなどのAI画像モデルや、LTX-V、Hunyuan Video、CosmosなどのAI動画モデルをサポートしています。
将来的にはオーディオなどのサポートも計画されています。


■Kokoro on browser

Kokoro on browserは、ブラウザ上で完全にオフラインで動作するテキスト読み上げ(Text-to-Speech, TTS)アプリケーションです。
ReactとViteで構築されており、Kokoro.jsというライブラリを使用しています。


■LLPlayer

LLPlayerは、語学学習に特化したメディアプレーヤーです。
通常の動画プレーヤーにはない、様々な便利な機能が搭載されています。
機能としては、デュアル字幕、AI字幕生成、リアルタイム翻訳、リアルタイムOCR字幕、字幕サイドバー、インスタント単語検索、オンライン動画再生などを含めた、沢山の機能があります。
こちらはGPL-3.0ライセンスで提供されています。


本日は以上となります。
Google、OpenAI、NVIDIAと大きい企業のニュースが多いですね。
特にo3-mini及びo3-mini-highと、DeepSeek-R1を比較検証している方は多いです。
その結果、グラフィックボードの価格が高騰しているとか。
日本でも先日5090騒動がありましたね。
さて、これを受けて市場はどうなっていくでしょうか。

SeaArtAI

それでは、また。

いいなと思ったら応援しよう!

この記事が参加している募集