【画像生成AI】自然な文章で思い通りの画像生成を実現する最先端モデル『Kolors』を試してみた

2024年7月7日 23:25

Stable Diffusionでの画像生成の欠点は、生成したい画像の情景をカンマ区切りのタグで入力するので、思った通りの画像を生成できないことでした。
この問題の解決に繋がる研究成果がKuaishou Technologyよりもたらされました。Kuaishouは、GML (General Language Model)を用いて、英語と中国語の理解力が強化されたモデル『Kolors』を発表しました。

今回は、このKolorsの性能を検証してみたいと思います。有志により、KolorsをComfyUIで動かすためのカスタムノードが提供されているので、このカスタムノードを使って検証してみました。

1. Kolorsの特徴

以下のKolorsの論文に基づいて、Kolorsの特徴について述べていきます。

英語と中国語に対応した高度なテキスト理解

Kolorsの最大の特徴は、英語と中国語の両方に対して高度な理解能力を持つことです。これは、General Language Model (GLM)を採用し、さらに多モーダル大規模言語モデルを使ってトレーニングデータに詳細な説明を追加することで実現しました。
開発チームの一人は「Kolorsは複雑な意味を理解し、それを正確に画像化する能力が特に優れています」とコメントしています。

2段階トレーニングで視覚的魅力を向上

Kolorsの開発では、画像の品質向上にも注力しました。トレーニングを「概念学習フェーズ」と「品質改善フェーズ」の2段階に分け、高品質なデータと最適化された高解像度トレーニング技術を統合しています。
さらに、高解像度画像生成を最適化するための新しいノイズスケジュールも導入されました。これにより、生成される画像の視覚的な魅力が大幅に向上しています。

オープンソースでの公開を予定

Kolorsの開発チームは、モデルの重みとコードを近々公開する予定であることを発表しました（既に公開済み）。これにより、研究者やデベロッパーがKolorsを基にさらなる改良や応用を行うことが可能になります。
また、将来的にはControlNet、IP-Adapter、LCMなどの様々なアプリケーションやプラグインもリリースする計画があるとのことです。

2. Kolorsの検証

Kolorsで何ができるのか検証してみました。言語理解力が上がったことで、ChatGPTに作ってもらった文章形式のプロンプトを投げることができるようになりました。ここで使用しているプロンプトは、すべてChatGPTに作成してもらったプロンプトです。

文字の描画

SD3のように文字が描画できるか試してみました。以下のプロンプトを入力し、「こんにちは」と書かれたボードを持つロボットを描画してみます。

A friendly robot is holding a board with the word "こんにちは" written on it in bold, clear Japanese characters. The robot has a sleek, modern design with a smiling face displayed on a screen. It is standing in a bright, well-lit room with a clean and minimalistic background. The overall atmosphere is welcoming and positive, emphasizing the robot's friendly nature.

日本語訳:
人懐っこいロボットが、太くはっきりとした日本語で「こんにちは」と書かれたボードを手にしている。ロボットは洗練されたモダンなデザインで、スクリーンには笑顔の顔が表示されている。清潔でミニマルな背景の、明るくてよく照らされた部屋に立っている。全体的に歓迎的で前向きな雰囲気で、ロボットの親しみやすさを強調している。

以下が生成結果です。やはり、日本語の描画は難しいようです。

次に、「こんにちは」から「Hello」に変えてみました。以下が生成結果ですが、文字が描画されていることを確認できます。しかし、何度も生成を繰り返して、ようやく出た結果であることと、長い文章になると描画できなくなることから、今までのStable Diffusionと同様に文字の生成は得意でないようです。

中国語も試してみました。"你好"という中国語を表示させようとしましたが、これも上手くいきませんでした。

正確なポーズ

言葉で指示したポーズをとれるか試してみました。
まず、手でハートマークを作れるか実験。プロンプトは以下になります。

A high school girl making a heart shape with her hands. She has long, straight black hair, is wearing a typical Japanese school uniform with a white blouse and blue skirt, and is standing in front of a school building. The background shows a clear blue sky and some greenery.

日本語訳:
手でハートの形を作る女子高生。長いストレートの黒髪で、白いブラウスに青いスカートという典型的な日本の制服を着て、校舎の前に立っている。背景は澄み切った青空と緑。

生成結果は以下になります。しっかりハートマークを作ってくれました。

次に少し複雑にするために、ハートの形を2人で作るような画像を生成してみます。プロンプトは以下になります。

Two high school girls are standing close to each other, smiling warmly. They are wearing traditional Japanese high school uniforms, with one girl in a navy blue blazer and the other in a gray cardigan. Each girl is holding out one hand, and together, their hands form a heart shape in the center. The background is a typical school corridor with lockers and windows letting in bright sunlight, giving the scene a warm, cheerful atmosphere.

日本語訳:
二人の女子高生が仲良く立ち、温かな微笑みを浮かべている。一人は紺のブレザー、もう一人はグレーのカーディガン。それぞれの少女が片手を広げ、両手を合わせると中央でハートの形になる。背景は典型的な学校の廊下で、ロッカーや窓から明るい日差しが差し込み、暖かく陽気な雰囲気を醸し出している。

以下が生成結果です。こちらもしっかり描写してくれました。

先ほどの画像は、髪型が同じで、制服が異なるので、異なる髪型、同じ制服にするようにプロンプトを改修しました。以下が改修後のプロンプトになります。

Two high school girls are standing close to each other, each with a distinct appearance. One girl has short, straight black hair and the other has long, wavy brown hair. Both are smiling warmly and wearing the same traditional Japanese high school uniform, featuring a navy blue sailor-style blouse with a red scarf and pleated skirt. Each girl is holding out one hand, and together, their hands form a heart shape in the center. The background is a typical school corridor with lockers and windows letting in bright sunlight, giving the scene a cheerful atmosphere.

日本語訳:
二人の女子高生が近くに立っている。一人は黒髪ストレートのショートヘア、もう一人はウェーブのかかった茶髪のロングヘア。二人とも温かな笑みを浮かべ、紺のセーラー服に赤いスカーフ、プリーツスカートという日本の伝統的な制服を着ている。それぞれの少女は片手を広げ、両手を合わせると中央でハートの形になる。背景は典型的な学校の廊下で、ロッカーや窓から明るい日差しが差し込み、明るい雰囲気を醸し出している。

以下が生成結果です。何度も繰り返して、ようやく以下の画像を出力できました。中々ハートの形を作ってくれず、苦戦しました。
肝心の人物の描き分けと、同じ制服を着せることには成功していますね。

様々な顔

今までのStable Diffusionでは、単一のcheckpointで生成する顔は、大体同じ顔になりがちでした。一方、Midjourneyは、同じプロンプトでも異なる顔を出力してくれるので、バリエーションに溢れて様々な用途に使えるメリットがありました。Kolorsでは、Midjourneyと比較して、バリエーションの性能はどの程度か確認してみました。

まずは、以下のプロンプトで日本人のポートレートを出力してみます。

a Japanese girl, realistic photograph, portrait,

以下が生成結果です。まず、日本人と分かる顔を出力してくれています。Stable Diffusionのcheckpointでは、学習の偏りのせいで、韓国や中国系の顔を出力することが多かったのですが、Kolorsはしっかり日本人の顔を生成してくれます。また、同一のプロンプトで様々な顔を生成してくれていることが確認できました。

同様に中国人のポートレート画像を出力してみました。こちらもしっかり中国人と分かる顔になっています。

次に韓国人です。こちらも韓国人と分かる顔を生成していますね。

複数人の人種の認識

以下のプロンプトを入力し、複数人の人種の描きわけができるか試してみました。

From left to right, a Chinese man, a Korean man, and a Japanese man are standing side by side. They are all smiling warmly and wearing casual attire. The background features a bright, sunny setting, such as a park with green trees and a clear blue sky. Each man has distinct facial features and hairstyles, reflecting their unique cultural backgrounds, and the overall atmosphere is cheerful and friendly.

日本語訳:
左から中国人男性、韓国人男性、日本人男性。カジュアルな服装で暖かな笑顔を浮かべている。背景は、木々の緑と抜けるような青空が広がる公園など、明るい日差しが降り注ぐ場所。それぞれの文化的背景を反映した特徴的な顔立ちと髪型で、全体的に陽気でフレンドリーな雰囲気だ。

結果が以下の画像になります。全員同じ顔で生成されています。１つの画像に人種の異なる顔の描写は難しいのでしょうか。何度か試しましたが、上手くいきませんでした。

美麗な画像

Midjourney V6レベルと評価されたKolorの性能を引き出したいと思います。様々な美麗な画像の出力に挑戦してみました。

まずは、ファンタジーの世界を創造してみました。以下がプロンプトです。

In a fantasy world, a group of heroes is battling a fierce monster. The scene is set in a dense, enchanted forest with towering trees and mystical glowing plants. The group includes a brave knight in shining armor wielding a sword, a skilled archer with a bow drawn, a powerful mage casting a spell, and a nimble rogue with daggers ready. The monster, a fearsome dragon with scales, sharp claws, and fiery breath, is attacking the heroes with full force. The atmosphere is intense and action-packed, with magical effects illuminating the dark forest.

日本語訳:
ファンタジーの世界で、ヒーローたちが獰猛な怪物と戦っている。舞台は、そびえ立つ木々や神秘的な光を放つ植物が生い茂る、うっそうとした魔法の森。一行には、剣を振るう輝く鎧の勇敢な騎士、弓を引く腕利きの射手、呪文を唱える強力な魔道士、短剣を構えた軽快な悪党がいる。モンスターは、うろこ、鋭い爪、激しい息を持つ恐ろしいドラゴンで、ヒーローたちに全力で襲いかかる。暗い森を照らす魔法の効果で、雰囲気は激しく、アクション満載だ。

以下が生成結果です。確かにSD3やMidjourneyに負けない迫力のある画像だと思います。

次に侍を出力してみました。

A dramatic moment of two samurai locked in a deadly duel on a rainy night, their swords clashing with water splashing around. The backdrop is a traditional Japanese bridge over a river, with lanterns providing a soft, warm glow. Both warriors are drenched, their clothes clinging to their bodies, adding to the intensity. Created Using: traditional Japanese art influences, rain effects, dynamic lighting, intense action, high detail, vivid colors, dramatic composition, cinematic perspective.

日本語訳:
雨の夜、2人の侍が水しぶきを上げながら刀をぶつけ合い、死闘を繰り広げるドラマチックな瞬間。背景は川に架かる伝統的な日本の橋で、提灯が柔らかく暖かい光を放っている。二人の戦士はびしょ濡れで、体にまとわりつく衣服が迫力を増している。使用素材：伝統的な日本美術の影響、雨の効果、ダイナミックな照明、激しいアクション、高いディテール、鮮やかな色彩、ドラマチックな構図、映画のような視点

以下が生成結果です。これも悪くないですね。

次は水の中の美女を描いてみます。使用したプロンプトは以下の通り。

A highly detailed and dynamic photograph of a beautiful woman smiling as she swims through an underwater cave. Her hair streams behind her, and she reaches out towards the light filtering in from the cave entrance. The water is illuminated with shimmering reflections, and the rocky cave walls add texture to the scene.

日本語訳:
水中の洞窟を泳ぎながら微笑む美しい女性の、非常に詳細でダイナミックな写真。彼女の髪が後ろに流れ、洞窟の入り口から差し込む光に向かって手を伸ばしている。水面にはきらめく反射光が照らされ、岩だらけの洞窟の壁がシーンに質感を加えている。

生成結果が以下になります。水の表現が美しいですね。

3. まとめ: Midjourneyからの卒業も近い！

ここまでの結果から、かなりMidjourneyの性能に近いと感じました。画像の品質だけでなく、言語理解力がとても高い点が今までのStable Diffusionと一線を画していますね。
Kolorの素晴らしい点は、これがオープンソースというところです。ライセンス形態はApatch 2.0で、商用利用も可能です。
これからControlNetやLoRAなど、幅広く対応させていく予定とのことで、今後の発展が非常に楽しみですね。

この記事でご紹介したAI技術の応用方法について、もっと詳しく知りたい方や、実際に自社のビジネスにAIを導入したいとお考えの方、私たちは、企業のAI導入をサポートするAIコンサルティングサービスを提供しています。以下のようなニーズにお応えします。

AIを使った業務効率化の実現
データ分析に基づくビジネス戦略の立案
AI技術の導入から運用までの全面サポート
専門家によるカスタマイズされたAIソリューションの提案

初回相談無料ですので、お気軽にご相談ください。以下のリンクからお問い合わせください。

この記事が気に入ったらサポートをしてみませんか？