見出し画像

【生成AIニュース】『CityDreamer4D』『DeepSeek R1とR1 Zero』『Blueshell』『iOSのGrokアプリ』『Flex.1 alpha』『CLIP-Interrogator』『Kokoro-FastAPI』『Harbor App 0.2.24』

まいどです。
本日の生成AIニュース。


■CityDreamer4D

CityDreamer4Dは、無限に広がる4次元都市を生成するAIフレームワークです。
従来の3次元都市生成技術は大きく進歩しましたが、時間変化を含む4次元都市の生成は、構造の複雑さや視覚的多様性、そして都市環境の歪みに対する人間の高い感受性から、より困難な課題でした。
CityDreamer4Dは、動的な要素と静的な要素を分離し、それぞれの要素に最適な表現方法を用いることで、無限に広がる4次元都市をリアルに生成する、最先端の技術です。
都市計画、ゲーム開発、映画制作、自動運転シミュレーションなど、幅広い分野での応用が可能です。


■DeepSeek R1とR1 Zero

DeepSeek R1 と R1 Zero は約685億パラメータを持つ大規模言語モデルです。
これらのモデルは DeepSeek v3 と同じアーキテクチャを基にしています。
R1 Zero は、数学、コーディング、論理パズルなどの分野で人間によるアノテーションデータをほとんど使用せずに訓練された可能性があります。
ただ、現時点でモデルカードは提供されていません。


■Blueshell

Blueshellは、AIチャットアシスタントとして機能するウェブアプリケーションです。
最大の特徴は、AIモデルがブラウザ上で直接動作する点です。
これにより、プライバシーが保護され、インターネット接続がないオフライン環境でも使用できます。
また、PDFドキュメントの分析とチャット機能に特化している点も特徴です。


■iOSのGrokアプリ

xAIのGrokがiOSアプリとして日本でもリリースされ、日本語にも対応しました。
米国で先行リリースでアプリ化はされてましたが、日本語対応していなかったんですよね。


■Flex.1 alpha

Flex.1 alpha は、テキストの説明から画像を生成できる、事前学習済みの80億パラメータを持つRectified Flow Transformerモデルです。
これは、FLUX.1-dev と類似のアーキテクチャを持ちますが、ダブルトランスフォーマーブロックの数が少なくなっています(19個に対して8個)。
元々は FLUX.1-schnell のファインチューンとして始まり、Apache 2.0 ライセンスを保持しています。
また、画像生成にCFG(Classifier-Free Guidance)を必要としないように、ガイダンスエンベッダーがトレーニングされています。
オープンソースで利用可能な、テキストから画像生成AIモデルの一つで、FLUX.1系のモデルをベースに改良されたものです。


■CLIP-Interrogator

CLIP-Interrogator は、画像の内容をテキストで説明するのに役立つツールです。
HuggingFace Transformers ライブラリを使っており、CLIPと呼ばれる画像とテキストを関連付けるモデルを活用しています。
さらに、CLIP-Interrogator では、自分で用意した単語リストを使って CLIP に学習させることもできます。
この機能を使うことで、CLIP が生成する単語をより自分の好みに合ったものにすることができます。
ただし、この機能を使うのには、ある程度の専門知識が必要です。


■Kokoro-FastAPI

Kokoro-FastAPIは、FastAPIを使用して開発されたプロジェクトで、テキストを音声に変換する (Text-to-Speech) モデル「Kokoro-82M」をラップしたものです。
NVIDIA GPU を使った高速な音声生成が可能です。
4060Ti グラフィックカードならリアルタイムの 35 倍から 100 倍速、M3 Pro CPU なら 5 倍速で音声生成できます。
また、OpenAI の Speech API と互換性のある API を備えており、 OpenAI のモデルを使っているかのようにプログラムから利用できます。


■Harbor App 0.2.24

Harbor App は、ローカルで大規模言語モデル (LLM) スタックを管理するためのDocker ベースのツールキットです。
バージョン 0.2.24 で Windows を正式にサポートするようになりました。
50以上のLLM関連サービスをサポートしています(10のフロントエンド、16の推論バックエンド、30以上の追加サテライトを含む)。


本日は以上となります。
トピックは少なめですが、実際は今後出てくるであろう大きな物の情報もちらほら見かけています。
が、まだ明確なソースのある情報は出ていなので、正式に出た時にご紹介しますね。

SeaArtAI

それでは、また。

いいなと思ったら応援しよう!

この記事が参加している募集