Googleの新しい画像生成AIが公開されました！

2024年8月15日 05:50

Googleの最新の画像生成AI、Imagen 3がついに公開されました。TestKitchenサイトにアクセスすると、以下のような画面が表示されるはずです。なお、このサイトへのリンクは動画の説明欄に記載しておきます。画面下部の設定を展開すると、Imagen 3によって動作していることが確認できます。
この動画では、Imagen 3の使い方と得意分野をお伝えします。また、最も近い競合であるOpenAIのDALL-E 3や、現時点で最高の画像生成AIと言われるFluxとの比較も行います。
まずは簡単なテストをしてみましょう。同じプロンプトを3つの異なる画像モデル（Imagen 3、DALL-E 3、Flux）で生成します。左、右、中央のどれがどのモデルかは言いませんので、どの写真が最も品質が良く、プロンプトに忠実かを教えてください。なお、モデルの順番は左、右、中央で固定しています。
最初のプロンプトは「芝生の上に横たわる女性」です。次は「自宅でウォリアー1のヨガのポーズをする女性」です。ちなみに、ウォリアー1のポーズはこのような形です。どれが一番良いと思いますか？左、右、中央で教えてください。
次のプロンプトは「TED トークをする男性。彼の後ろには『TED X AI search』というテキストが書かれた大きなネオンサインがある」です。どれが一番良いと思いますか？
次は「女性の手のひらと足の裏のクローズアップ。リアルな被写界深度」です。右のモデルは生成に失敗し、コンテンツポリシーに違反したため画像を生成できませんでした。残りの2つの画像のうち、どちらが良いと思いますか？
次は「カピバラの群れ。リアリスティックな写真」です。ちなみに、実際のカピバラはこのような姿をしています。生成された画像のうち、どれが一番良いと思いますか？
次は「森の中のコモドドラゴン。舌を出し、警戒して動いているように見える」です。参考までに、実際のコモドドラゴンはこのような姿をしています。生成された画像のうち、どれが最もコモドドラゴンらしく、品質が良いと思いますか？
次は「巨大なカタツムリに乗った宇宙飛行士が砂漠の風景を進んでいる。カタツムリの殻は虹色に輝いている。宇宙飛行士は『I love Imagen 3』と書かれた旗を振っている」です。どの画像がプロンプトに最も忠実だと思いますか？巨大なカタツムリ、虹色に輝く殻、そして旗に「I love Imagen 3」と書かれているかを確認してください。
次は、位置と文脈の理解をテストする難しいプロンプトです。「赤い球体が青い立方体の上に乗っている写真。その後ろに緑の三角形がある。右側に犬、左側に猫がいる」です。どの画像が一番良いと思いますか？
最後はアニメです。プロンプトは「夜の街のアニメの少女」です。どの画像が一番良いと思いますか？
これから答えを順番に見ていきます。もう一度言いますが、このページへのリンクは説明欄に記載しています。Imagen 3を使用しているかどうかを確認するには、設定タブを展開して「Imagen 3」と表示されていることを確認してください。
このインターフェースの使い方は非常に簡単です。上部にプロンプトを入力するだけです。有名なプロンプト「芝生の上に横たわる女性」から始めてみましょう。「作成」をクリックすると、一度に4つの画像が生成されます。
生成中に注目してほしいのは、プロンプト内のキーワードが自動的に選択されることです。このドロップダウンメニューで、キーワードのバリエーションを選択できます。例えば、「横たわる」の代わりに「立つ」「座る」「走る」などを選べます。また、「芝生」の代わりに「砂」「雪」「水」なども選択できます。
通常は4つの画像が生成されるはずですが、このモデルには厳しい検閲が設けられています。もちろん、NSFWコンテンツは生成できません。今回は4つの生成のうち3つがコンテンツポリシーに違反したようです。NSFWコンテンツを意図的に生成しようとしたわけではありませんが、このように4つの画像のうち3つが不適切と判断されることがあります。
唯一生成された画像を見てみましょう。クリックするとダウンロードできます。しかし、あまり良い出来とは言えません。指は何とか見えますが、この黒い部分は何でしょうか？大きな爪のようですが、本来あるべきではありません。顔もあまり詳細ではありません。なぜGoogleが「芝生の上に横たわる女性」というプロンプトに対してこのような女性を生成したのかわかりません。
ちなみに、同じプロンプトをFluxでも試してみましょう。こちらが結果です。最後に、同じプロンプトをBing Image Creator（DALL-E 3を使用）でも試してみます。DALL-E 3は芝生の上に横たわる女性の4つの画像を生成しました。
3つの画像生成AIを並べて比較してみましょう。Imagenが最も鮮明な細部を生成していることがわかります。はっきりとしたクリスプな画像です。Fluxと比べても、この2つはより現実的に見えます。Fluxは非常に映画的な雰囲気を生成します。プロの高級カメラで撮影したかのような印象で、Midjourney風の写真に似ています。
一方、DALL-E 3は今回最も悪い結果だと思います。確かに芝生の上に横たわる女性ですが、色が過飽和で明るすぎます。また、現実的ではなく、DALL-E 3で生成された人間にはプラスチックっぽさがあります。
以上が3つの生成AIの比較です。コメント欄でどれが好きか教えてください。
次は、より難しいプロンプトで人体の解剖学と異なるポーズの理解をテストしてみましょう。プロンプトは「自宅でウォリアー1のヨガのポーズをする人間」です。ちなみに、ウォリアー1のポーズはこのような形です。画像生成AIにとってはかなり難しいポーズですが、Imagen 3がこれを生成できるか見てみましょう。同じプロンプトをFluxとDALL-E 3でも試してみます。
Imagen 3の結果はこちらです。実際にかなり良い品質です。4つの画像のうち2つが不適切と判断されて検閲されましたが、問題ありません。分析できる2つの画像が得られました。
1つ目の画像は完璧です。まさにウォリアー1のポーズで、手には5本の指があり、つま先と足も正確です。姿勢も正確で、すべてが完璧に見えます。Imagen 3の生成結果に本当に感心しました。
2つ目の画像はウォリアー1ではなく、実際にはウォリアー2のポーズですが、それでもウォリアーのポーズなので多少の評価はできます。この女性は非常にリアルに見えます。Stable Diffusionで見られるような完璧なモデルではなく、普通の人間らしく見えます。手、足、解剖学的な特徴もすべて正確です。これは本当に印象的です。
こちらがFluxでの生成結果です。実際には期待したほど良くありません。ウォリアーのポーズに近いですが、腰が回転しているべきで、このような姿勢ではありません。シャツのストラップも少し変に見えます。これはあまり良い生成結果とは言えません。
そしてこちらがDALL-E 3の結果です。Bing Image Generatorでは通常4つの生成結果が得られるはずですが、今回は2つしか得られませんでした。おそらく4つのうち2つの画像が不適切と判断され、コンテンツフィルターを通過しなかったためです。
しかし、人体の解剖学については優れています。唯一の問題は顔がやや奇妙で、細部があまり良くないことです。何かがおかしく見えます。このストラップもあるべきではないように思えます。しかし、手、指、足、つま先は正確に生成できています。これはウォリアー1のポーズです。
2つ目の写真はウォリアー1ではなくウォリアー2ですが、正確に生成できています。再度ですが、DALL-E 3は本当にリアルで詳細な顔を生成するのに苦労しています。この女性の解剖学的特徴は良好ですが、顔の細部が欠けており、プラスチックっぽく見えます。
3つの画像生成AIを並べて比較してみましょう。今回はImagen 3に軍配を上げざるを得ません。ポーズを完璧に再現しただけでなく、髪、顔、手、指、足まで非常に詳細です。他の2つは細部が欠けており、何かが正しくありません。
次は、Fluxが得意とするプロンプトを使ってみましょう。Imagen 3がこれを再現できるか見てみます。プロンプトは「TED トークをする男性の写真。彼の後ろには『TED X AI search』というテキストが書かれた大きなネオンサインがある。スポットライトスタイルの照明、ソフトな影、シャープな焦点、浅い被写界深度」です。
これは難しいプロンプトです。男性を生成するだけでなく、彼の後ろにテキストを生成できるかもテストしています。また、TEDトークについての理解もテストしています。TEDxのロゴがどのように見えるべきかを理解しているはずです。
こちらが結果です。4つの生成結果が得られました。1つ目、2つ目、3つ目、そして4つ目です。余分な緑の「X」がある1つを除いて、全体的にとても良い出来です。スペルミスはありますが、理想的には「I」と「S」が大文字であるべきです。しかし、トークをする男性は非常にリアルに見えます。各手に5本の指があり、またもや正確な手と指を持つ画像生成AIを見ることができました。
こちらも各手に5本の指があり、すべてが非常にリアルに見えます。こちらも同様で、欠点を指摘するのは難しいです。最後の画像では、2つのマイクがあるのは正確ではありませんし、余分な緑の「X」もありますが、全体的には悪くありません。
3つの画像生成AIを同じプロンプトで並べて比較してみましょう。Fluxはこのプロンプトで良い結果を出すことで知られています。以前にテストしたことがあります。テキストと男性の生成を完璧にこなし、TEDイベントでトークをする男性の非常にリアルな写真に見えます。
しかし、Imagenもその品質に非常に近づいています。まず、男性は超リアルに見えます。唯一の欠点は、「I」と「S」を大文字にできなかったことですが、TEDxのロゴは完璧に再現しています。
この3つの中で、DALL-E 3が最も悪い結果です。確かに赤いTEDxのロゴは生成できましたが、「AI search」の生成に失敗しています。また、この男性は他のDALL-E 3の画像でも見られたように非常にプラスチックっぽく見えます。さらに、彼は間違った方向を向いています。なぜ観客が彼の後ろにいるのかわかりません。これは良い写真とは言えません。
全体的に、今回はFluxに軍配を上げますが、Imagen 3も非常に近い結果を出しています。
次は、Fluxが得意とすることが知られているプロンプトをテストしてみましょう。ここでは少し偏りがあります。これがFluxでうまくいくことは知っていますが、Imagenでも同様の画像を生成できるか見てみたいと思います。
プロンプトは「10代の男性が鏡で自撮りをしている低品質のSnapchat写真。この写真はiPhoneで撮影され、2015年にSnapchatに投稿された」です。「生成」をクリックしてみましょう。
生成を待つ間に、Fluxの例を見せましょう。Fluxはこのような本当に低品質で平凡な写真を生成できます。これはあなたや私、普通の人々が撮る写真のようです。iPhoneの形状も正確で、この男性は完全に普通でリアルに見えます。そして鏡に映った自撮りをしています。他にもこのような低品質で平凡な写真がありますが、これらは本物の写真とほとんど見分けがつかないほどリアルです。
GoogleのImagen 3がこのような平凡な画像を生成できるかどうか見てみたかったのですが、4つの写真すべてがコンテンツポリシーに違反したようです。おそらく「teenage（10代）」という言葉を使ったからだと思います。では「man（男性）」に変えて試してみましょう。
こちらが4つの画像です。1つ目は低品質の自撮り写真のように見えます。彼の携帯電話はある程度正確に見えます。手と指は間違いなく正確です。これはまあまあの出来栄えだと言えるでしょう。
2つ目の画像です。なぜか鏡の中に円形のフレームがありますが、それ以外は携帯電話の形状は正確で、手も正確です。悪くはありません。
3つ目もかなりリアルです。ただし、光の配置があまり適切ではないですね。
最後の画像です。悪くはありませんが、私が求めていたスタイルとは少し違います。
3つの画像生成AIを同じプロンプトで並べて比較してみましょう。Fluxはこれを完璧に再現しています。まさに私が求めていたものです。本当に低品質な素人の写真で、ランダムな人が撮ってソーシャルメディアに投稿したような感じです。
Imagen 3については、これは映画的で専門的すぎます。私は本当に低品質なスタイルを求めていました。しかし、それ以外は携帯電話はリアルに見えますし、手もリアルです。悪くはありませんが、私が求めていたスタイルではありません。
驚いたことに、DALL-E 3の生成結果は悪くありません。これも本当に低品質な素人の写真です。さらに印象的なのは、これが鏡に映った自撮りなので、Appleのロゴを反転させていることです。携帯電話、手、指を正確に生成できています。そして、品質は私が指定した通りです。写真が非常に粗くて低品質なのがわかります。これはプロンプトで指定した通りです。
ここではDALL-E 3とFluxに軍配を上げざるを得ません。
次は別の難しいプロンプトをテストしてみましょう。プロンプトは「女性の手のひらと足の裏のクローズアップ。リアルな被写界深度」です。以前の世代の画像生成AIは手と足を上手く生成できませんでした。そのため、これらを生成する能力を本当にテストしようとしています。
ご覧の通り、4つの画像のうち3つが検閲されています。何らかの形でコンテンツポリシーに違反したようです。これはかなり厳しくフィルタリングされたモデルですが、1つの画像は生成できました。これは実際にとても良い出来です。
拡大してみると、手がとてもリアルに見えます。つま先と足も非常にリアルです。これに欠点を見つけるのは難しいです。本当に良い出来で、実際の写真のように見えます。プロンプトで指定した通り、被写界深度も取り入れられています。個人的には満点をつけたいと思います。
3つの画像生成AIを比較してみましょう。Fluxもある程度これを行うことができます。手の生成が得意なことで知られていますが、つま先が時々おかしくなっています。DALL-E 3については、同じプロンプトを何度も試しましたが、結果を得ることができませんでした。すべての結果がコンテンツポリシーに違反し、おそらく裸足に関する何かが即座に失敗の原因となったようです。
これら2つの例については、Imagen 3に軍配を上げざるを得ません。これは本当にリアルに見えます。
次は、Imagen 2が得意とすることがわかっているプロンプトを使ってみましょう。Imagenは動物のリアルな写真の生成が得意です。まずはこちらから始めましょう。プロンプトは「カピバラの群れ。リアリスティックな写真」です。どのような結果が得られるか見てみましょう。
こちらが結果です。ほとんどの部分で素晴らしい出来です。これは現実的ではないのでスキップしましょう。しかし、こちらはカピバラの群れの本物の写真のように見えます。とても現実的です。
こちらは別の写真ですが、これも非常に現実的です。毛皮や顔の細部がとても鮮明なのに注目してください。本当に印象的です。
こちらはもう1枚の写真で、これも非常に現実的です。手まで非常に現実的に見えます。これらは本物のカピバラの手のように見えます。
カピバラの写真を生成したい場合、Imagen 3が最適な選択肢だと言えるでしょう。
3つの画像生成AIを同じプロンプトで並べて比較してみましょう。Fluxは実際、一般的ではない動物の生成が苦手です。人間や犬、猫はうまく生成できますが、カピバラのような動物になるとリアルな姿を生成することができません。
DALL-E 3については、カピバラは良く見えますが、全体的に漫画っぽくプラスチックっぽい印象です。色が過飽和で、画像が明るすぎます。これはDALL-E 3の他の生成結果でも見られた特徴です。
疑いの余地なく、このプロンプトについてはGoogleのImagen 3に軍配が上がります。
では、別の珍しい動物を試してみましょう。こちらは「森の中のコモドドラゴン。舌を出し、警戒して動いているように見える。リアリスティックな写真」というプロンプトです。
なんと、これは本当に印象的です。ところで、このすばらしいツールについてお話しさせてください。私たちのスポンサーであるAbacus AIが提供するChat LLMです。これを使えば、最高のAIモデルを1つの統合プラットフォームで利用できます。GPT-4、Claude Sonet 3.5、llama 3.1、そして彼ら独自のSMOGが含まれています。
通常のチャットボットとして使用できるだけでなく、画像の生成もできます。さらに、とてもクールなアーティファクト機能があります。コーディングや何かを構築している場合、アプリをチャットと並べて表示して操作できます。
PDFやドキュメントをドラッグ＆ドロップして分析させることもできます。これはレポートの生成やデータ分析に最適です。チャットインターフェース内で簡単にデータテーブルやチャートを作成できます。非常に便利です。
また、便利な「人間化」ボタンがあり、出力を異なるトーンに変換したり、AI検出をバイパスしたりできます。さらにウェブ検索機能もあるので、他のチャットボットのように古い情報を提供するのではなく、積極的にウェブを検索して最新の情報を提供します。
Slackやその他のエンタープライズプラットフォームにシームレスに統合できるので、チームコラボレーションに最適です。また、特定のタスクを自動化するためのカスタムエージェントを作成することもできます。
これは本当に強力で多用途な方法で、最高のAIモデルを1つのプラットフォームで利用できます。説明欄のリンクから試してみてください。
私は他の画像生成AIでコモドドラゴンの写真を生成しようとしていましたが、コモドドラゴンを生成できませんでした。しかし、これは非常にリアルに見えます。本当に感心しました。
こちらが1つ目の生成結果です。2つ目、3つ目、4つ目の生成結果です。完璧に理解していますね。コモドドラゴンが何かを完全に把握しています。ちなみに、実際のコモドドラゴンはこのような姿をしています。豆知識ですが、これは世界最大のトカゲで、インドネシアに生息しています。
他の2つの画像生成AIとの比較はこちらです。Fluxは明らかにコモドドラゴンが何かを理解していません。単に舌を出したドラゴンのような生き物を生成しただけです。Fluxには完全な失敗です。
DALL-E 3はコモドドラゴンがこのような姿をしていることは理解していますが、各手の爪が多すぎます。また、再びこのプラスチックっぽい漫画的で過飽和なスタイルが見られます。これは私の好みではありません。
圧倒的にImagen 3が勝者です。完璧に生成できています。
他の例もいくつかテストしてみましょう。次のプロンプトは「眼鏡をかけたフクロウの司書が、古い本の山の上に止まっている。図書館には高くそびえる本棚、巻物、魔法のアーティファクトが並んでいる」です。どのような結果が得られるか見てみましょう。
とても良いですね。プロンプトに忠実であることがわかります。眼鏡をかけたフクロウが古い本の山の上に止まっています。図書館には高くそびえる本棚と巻物があります。これらの巻物は少し変に見えますが、プロンプトで指定した巻物を認識していることがわかります。また、魔法のアーティファクトもあちこちに見られます。プロンプトのすべての要素を忠実に再現しています。
こちらは別の例です。再び、本の山の上に止まっており、巻物と魔法のアーティファクトがあちこちにあります。素晴らしいです。
こちらはさらに別の例です。
3つの画像生成AIを並べて比較してみましょう。必ずしも明確な勝者はいないと思います。3つともプロンプトに従うことができ、眼鏡をかけたフクロウを生成し、本の山の上に止まらせ、背景に高くそびえる本棚を配置できています。
繰り返しになりますが、DALL-E 3のスタイルは好みではありません。画像が明るすぎて過飽和に見えます。しかし、背景のこれらの細部は非常に詳細な生成です。
これら2つも本当に良いです。この場合、Fluxが最もリアルに見えますが、私はこの生成をリアルな写真にするよう指定しませんでした。
この例では勝者を選ぶのは本当に難しいです。コメント欄で、どれが一番好きか教えてください。
次に、プロンプトのコンテキストを本当に理解できているかテストしてみましょう。これは非常に難しいプロンプトです。以前の世代の画像生成AIはこれを正確に生成できませんでしたが、最新のStable Diffusion 3やAA FlowとFluxはこれを生成できます。Imagen 3もこれを生成できるか見てみましょう。
プロンプトは「赤い球体が青い立方体の上に乗っている写真。その後ろに緑の三角形がある。右側に犬、左側に猫がいる」です。非常に難しく複雑なプロンプトで、多くの異なるオブジェクトが含まれています。どのような生成結果が得られるか見てみましょう。
うーん、赤い球体が青い立方体の上に乗っていて、その後ろに緑の三角形があります。そして右側に犬、左側に猫がいますね。完璧です。犬と猫をリアルに見せるよう指定しなかったので、その点については責められません。
こちらは別の生成結果です。これはあまり良くありません。赤い球体が青い立方体の上に乗っていて、後ろに緑の三角形があります。右側に犬がいますが、左側にいるのは犬のようで、猫ではありません。これは少し奇妙です。
3つの画像生成AIを並べて比較してみましょう。DALL-E 3は何が起こっているのかよくわかっていないようです。プロンプトのコンテキストについて、このような高度な理解を持っているようには見えません。
Fluxはこれを完璧に生成しました。さらに、犬と猫が非常にリアルに見えます。
Imagenもプロンプトに従いました。犬と猫をリアルに見せるよう指定しなかったので、この場合は同点だと思います。Imagenと Flux の両方に点を与えたいと思います。
最後にもう1つ、文脈の理解とテキストの生成をテストするプロンプトを試してみましょう。こちらは「宇宙飛行士が巨大なカタツムリに乗って砂漠の風景を進んでいる。カタツムリの殻は虹色に輝いている。」というプロンプトです。これらのさまざまな要素を理解しているかをテストしています。さらに、「宇宙飛行士は"I love Imagen 3"と書かれた旗を振っている」という部分もあります。旗にこのテキストを生成できるかもテストしています。うまくいくか見てみましょう。
こちらがImagen 3の結果です。テキストを完璧に生成し、巨大なカタツムリに乗った宇宙飛行士も完璧に生成しています。カタツムリの殻は虹色に輝いており、砂漠の中にいます。この1枚には満点をあげたいと思います。
こちらも同様にテキストと他のすべての要素を完璧に生成しています。このように、Imagen 3には本当に感心しました。Imagen 2と比べて明らかな改善が見られます。
3つの画像生成AIを並べて比較してみましょう。DALL-E 3はテキストを正確に生成できませんでしたが、他のすべての要素はほぼ正確に生成できています。巨大なカタツムリに虹色に輝く殻はありますね。
Fluxはテキストを正確に生成できましたが、虹色に輝く殻を生成できず、カタツムリの形も非常に奇妙です。これは私の以前の観察と一致しています。Fluxは人間、猫、犬以外の動物の画像を生成するのが得意ではありません。
しかし、Imagenはすべてを完璧に生成しました。テキストを正確に生成し、虹色に輝く殻を持つカタツムリも正確に生成しています。これは本当に印象的です。ここでは明らかにImagen 3に軍配が上がります。
次に、異なるスタイルの画像をテストしてみましょう。こちらのプロンプトは「空に浮かぶクジラの水彩画」です。どのような結果が得られるか見てみましょう。
こちらが4つの生成結果です。これは本当に良い出来です。水彩画のように見えますし、空に浮かぶクジラも描かれています。こちらも悪くありません。空には浮いていませんが、水彩画のように見えます。こちらは別の生成結果ですが、なぜこんなに黄色いのかわかりません。そしてこちらは素晴らしい生成結果です。私はこのスタイルが本当に好きです。これは私が求めていたものに近いです。
全体的に非常に良い結果で、水彩画スタイルの画像を生成できることがわかります。
3つの画像生成AIを並べて比較してみましょう。Fluxは他の動物の生成が本当に苦手なことがわかります。しかし、Imagen 3とDALL-E 3は水彩画スタイルを生成できています。Imagenの方が少し上手くできていると思います。DALL-E 3の場合、画像に細部が多すぎて、本当に水彩画のようには見えません。ここでも、再びImagen 3に軍配が上がると思います。
次は、アニメをテストしてみましょう。プロンプトは「夜の街のアニメの少女」です。非常にシンプルなプロンプトですが、アニメスタイルの写真を生成できるかテストしています。
結果は1枚の画像しか生成できませんでした。他の3枚の画像はコンテンツポリシーに違反したようです。とにかく、これが得られた結果です。これはアニメスタイルです。Imagen 2ではアニメを本当に生成できなかったので、これは大きな改善です。全体的に悪くはありません。
3つの画像生成AIを並べて比較してみましょう。再びDALL-E 3は過飽和で明るすぎ、画像に多くの細部を追加する傾向があります。これは私の好みではありません。Fluxは完璧に生成しています。これら3つの中で、この画像が断然最高に見えます。Fluxはアニメの生成が非常に得意なことで知られています。
Imagen 3は今ではアニメを生成できるようになり、これは以前の世代のImagenと比べて大きな改善です。しかし、アニメスタイルの写真については、FluxやStable Diffusionを使用した方が良いでしょう。
最後に、Eコマース写真をテストしてみましょう。これは小規模ビジネスオーナーやEコマースオーナーにとって有用かもしれません。AIに商品写真を生成させたい場合に役立ちます。
プロンプトは「マットブラックのワイヤレスノイズキャンセリングヘッドホン。スリークな反射面の上に置かれ、グラデーションの背景がある」です。どのような結果が得られるか見てみましょう。
こちらが結果です。プロンプトには従っていますが、ヘッドホンが少し曲がっています。これも対称的ではないようです。こちらは別の生成結果です。そしてこちらもまた別の結果です。4つの中では、これが一番良いと思いますが、Eコマースの商品写真としてはまだ良くありません。
3つの生成AIを並べて比較してみましょう。ここでは勝者を選ぶのは本当に難しいです。リアリズムと品質の面では、明らかにImagenかFluxです。DALL-E 3は再び現実的には見えません。しかし、ImagenとFluxの両方でも、ヘッドホンの形が少しおかしく見えます。特に良い品質とは言えません。
商品写真については、ControlNetを使用したStable Diffusionを使った方が良いでしょう。Loraには商品写真用の優れたチェックポイントがいくつかあります。
とにかく、これでImagen 3のテストの総括です。多くのことをテストし、いくつかのことはうまくいき、いくつかのことはそうでもありませんでした。しかし全体的に、これは以前の世代のImagenから大きな改善です。全体として、これは利用可能な最高の画像生成AIの1つだと思います。
これはクローズドソースなので、重みをダウンロードしてローカルで、オフラインでコンピューター上で実行することはできません。しかし、これは完全に無料で使用できます。Googleが無料で提供してくれたことに感謝します。これらの画像の一部は、Midjourneyと同等かそれ以上の品質です。なぜMidjourneyの月額サブスクリプションを支払う必要があるでしょうか。これやFluxを無料で使用できるのですから。
これでImagenのレビューを終わります。アクセス権があるかどうか教えてください。何人かの友人と話をしましたが、彼らもログインしてアクセスできることを確認しています。すでに多くの人に展開されているはずです。
使用する機会があった場合は、何が好きで何が好きではないか教えてください。いつも通り、トップAIニュースとツールを探し続け、皆さんと共有していきます。この動画を楽しんでいただけたなら、いいね、シェア、購読をお願いします。そして、今後のコンテンツもお楽しみに。
また、AIの世界では毎週とてもたくさんのことが起こっているので、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっていることすべてを本当に最新の状態に保つには、私の無料の週刊ニュースレターを購読してください。リンクは説明欄にあります。
視聴ありがとうございました。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？