【あの画像生成AIが無料に!?】最新の生成AIニュース
Googleが音声モード「Gemini Live」の搭載を発表!
1. Gemini Liveについて
Googleは、AIアシスタント「Gemini」と自然に会話できる新機能「Gemini Live」をリリースしました。
〈Gemini Liveの概要〉
Gemini Liveは、Geminiと音声で自由に会話できるモバイル向け機能です。
現在はGemini Advanced加入者向けに英語版が提供開始されました。
今後数週間以内にiOSや他の言語にも対応を拡大する予定です。
〈Gemini Liveの機能〉
10種類の音声から好みのトーンとスタイルを選択可能。
会話の途中で特定の内容を掘り下げたり、中断した話題に戻ったりできる。
ハンズフリーで利用可能で、バックグラウンドや端末ロック中でも会話を継続できる。
Gmail、Google Keep、YouTube Musicなど他のGoogleアプリと連携可能。
〈Gemini Liveの活用シーン〉
ブレインストーミングや重要な会話の練習に活用できる。
就職面接のリハーサルや論文のアイデア出しなどに役立つ。
※ブレインストーミング:ブレインストーミングとは、アイデアを自由に発想するための手法です。通常、グループで行われることが多く、参加者が制限なくアイデアを出し合い、他の人のアイデアに刺激を受けて新たなアイデアを生み出すことを目指します。このプロセスでは、アイデアの質を問わず、量を重視し、評価や批判は後回しにするのが一般的です。
Gemini Liveは、自然な会話体験を通じてAIアシスタントの利便性を大きく向上させる機能として期待されています。
ChatGPTの画像生成DALL-E3が無料ユーザーでも使えるように!
1. DALL-E3 について
DALL-E3は、OpenAIが開発した最新の画像生成AIモデルです。テキストの説明から高品質な画像を生成する能力を持っています。
以前は有料版ユーザーのみが使用できる機能でしたが、今回無料ユーザーでも1日2枚までの画像生成が可能になりました。
↓DALL-E3
https://openai.com/index/dall-e-3/
〈DALL-E3の主な特徴〉
短くシンプルな説明文からでも、詳細で高品質な画像を生成できます。
ChatGPT上で直接利用可能で、会話しながら画像生成や修正ができます。
デザイン、アート、広告、教育など幅広い分野で活用できます。
ChatGPT Plusユーザーが生成した画像は商用利用が可能です。
〈DALL-E3の活用例〉
ロゴやイラストの作成
広告バナーやサムネイルの生成
建築デザインや不動産の完成予想図
教育用の図解や資料作成
創作のインスピレーション源
2.使用方法
ChatGPT Plusにログインし、GPT-4モデルを選択します。
チャット欄に作りたい画像の説明を入力します。→例:柴犬の画像を作ってください
AIが画像を生成し、表示します。
必要に応じて、追加の指示で画像を修正できます。
↓DALL-E3で生成した画像
DALL-E3は、前バージョンと比べて言語理解能力が向上し、より正確で詳細な画像生成が可能になりました。クリエイティブな作業やビジネス用途など、幅広い分野での活用が期待されています。
↓DALL-E3
https://openai.com/index/dall-e-3/
Midjourneyを超える!?画像生成AI「Flux.1」がすごい!
1. Flux.1について
Stable Diffusionの共同開発者たちによって設立されたベンチャー企業「Black Forest Labs(BFL)」が8月1日に発表した最新の画像生成AIモデルが「FLUX.1」です。同じ画像生成AIであるDALL-EやMidjourneyに匹敵、それ以上であると言われています。
〈Flux.1の主な特徴〉
高画質な画像生成
アニメ風イラストも得意
プロンプトに忠実
文字(アルファベット)も綺麗に生成可能
テキストの正確な処理と複雑な構図の再現
3種類のモデルが提供されている
ローカルで使う場合は無料
〈使用方法〉
ローカル環境:
ComfyUIなどのアプリケーションを使用してセルフホスト可能
オンラインサービス:
Hugging Face、Replicate、fal.aiなどのプラットフォームで利用可能
〈Flux.1の活用例〉
イラスト制作:
商業用イラストやアート作品の制作補助
キャラクターデザインの発想や下絵作成
広告・マーケティング:
広告ビジュアルの作成
SNS投稿用画像の生成
ウェブデザイン:
ウェブサイトのヒーロー画像やバナー制作
アイコンやロゴのアイデア出し
製品デザイン:
新製品のコンセプトイメージ作成
パッケージデザインのプロトタイピング
教育・研究:
教材用イラストの作成
研究発表用の図表やイメージ生成
エンターテインメント:
ゲームやアニメのキャラクター/背景デザイン
小説や漫画の挿絵制作
建築・インテリアデザイン:
建築物やインテリアのイメージ図作成
空間デザインのビジュアライゼーション </aside>
2.モデルバリエーション
FLUX.1[Pro]
最高性能のモデルで、FLUX.1シリーズの中で最も高品質な画像を生成します。
クローズドウェイト(非公開)モデルで、一般ユーザーは直接アクセスできません。
プロンプトの追従性、画質、細部の表現、出力の多様性において最先端の性能を発揮します。
Black Forest LabsのAPIサービス、Replicate、fal.aiなどのプラットフォームを通じてのみ利用可能です。
商用利用に適しており、プロフェッショナルな画像生成ニーズに応えます。
FLUX.1[dev]
オープンウェイト(公開)モデルで、非商用利用向けに設計されています。
FLUX.1 [pro]から直接蒸留された12億パラメータのモデルです。
[pro]モデルに匹敵する品質とプロンプト追従能力を持ちながら、より効率的に動作します。
Hugging Faceで無料で入手可能で、研究や個人プロジェクトに適しています。
商用利用の場合は、別途ライセンス契約が必要です。
FLUX.1[schnell]
3つのモデルの中で最も高速な画像生成が可能です。
オープンウェイト(公開)モデルで、Apache 2.0ライセンスの下で提供されています。
ローカル環境での開発や個人利用に最適化されています。
latent adversarial diffusion distillationという技術により、1〜4ステップという非常に少ないステップ数で高品質な画像を生成できます。
ComfyUIなどのツールと統合しやすく、既存のワークフローに組み込みやすいです。
商用利用を含め、幅広い用途で自由に使用できます。
[Pro]は最高品質を求めるプロフェッショナル向け、[dev]は研究や非商用プロジェクト向け、[schnell]は高速処理や個人利用向けとなっています。FLUX.1シリーズ全体として、高品質な画像生成、優れたプロンプト追従性、多様な出力能力を特徴としており、画像生成AIの分野で注目を集めています。
↓Flux.1で生成した画像
FLUX.1は特に文字の生成や細部の表現に優れているため、テキストを含む画像や精密なイラストが必要な場面で活用できます。また、プロンプトへの忠実性が高いので、具体的なイメージを正確に再現したい場合に有用です。