ChatGPTにSVGでお絵描きさせる (GPT-3.5の場合)
前回のnoteでChatGPTにSVGでお絵描きをさせてみて、その結果に驚き、GPTの今後の可能性を強く感じた。
この時はモデルとしてGPT-4を使用したが、はたしてGPT-3.5の場合はどうなのだろうか?テキストコミュニケーションにおいては、GPT-4の方が圧倒的に優れているが、クリエイティブの点ではどうなのだろうか?
そんな疑問から、前回のGPT-4への問いとほぼ同じ流れでGPT-3.5にもSVGでお絵描きさせてみることにした。
<svg xmlns="http://www.w3.org/2000/svg" width="200" height="200">
<rect width="200" height="200" fill="blue" />
</svg>
<svg xmlns="http://www.w3.org/2000/svg" width="200" height="200">
<polygon points="100,10 40,198 190,78 10,78 160,198" fill="yellow" />
</svg>
<svg xmlns="http://www.w3.org/2000/svg" width="200" height="200">
<path d="M100,10 C30,80 30,150 100,190 C170,150 170,80 100,10 Z" fill="yellow" />
<circle cx="75" cy="70" r="10" fill="black" />
<circle cx="125" cy="70" r="10" fill="black" />
<path d="M95,100 C95,110 105,110 105,100" stroke="black" stroke-width="2" />
</svg>
<svg xmlns="http://www.w3.org/2000/svg" width="200" height="200">
<path d="M100,10 C30,80 30,150 100,190 C170,150 170,80 100,10 Z" fill="yellow" />
<circle cx="75" cy="70" r="10" fill="black" />
<circle cx="125" cy="70" r="10" fill="black" />
<path d="M95,100 C95,110 105,110 105,100" stroke="black" stroke-width="2" />
<path d="M75,135 C65,155 85,155 75,135 M125,135 C115,155 135,155 125,135" stroke="black" stroke-width="2" />
</svg>
<svg xmlns="http://www.w3.org/2000/svg" width="200" height="200">
<path d="M100,10 C30,80 30,150 100,190 C170,150 170,80 100,10 Z" fill="yellow" />
<circle cx="75" cy="70" r="10" fill="black" />
<circle cx="125" cy="70" r="10" fill="black" />
<path d="M95,100 C95,110 105,110 105,100" stroke="black" stroke-width="2" />
<path d="M75,130 C75,140 60,150 75,160" stroke="black" stroke-width="2" />
<path d="M125,130 C125,140 140,150 125,160" stroke="black" stroke-width="2" />
</svg>
これ以上は良くならないと感じたのでここで実験終了。
星の形状を歪みない正多角形として描いたり、ひよこは左右対称であったりと、無機質で面白みのない結果となった。それはとても機械的で前回GPT-4に感じた人間らしさを感じない。
逆にGPT-4のあの人間らしさ(それは歪み、有機的な曲線、非対称性から感じるもの)はどこから生まれているのだろうか?どのような学習が影響しているのだろうか?GPT-3.5は大量のウェブサイトや書籍のテキストデータから学習されていることは公表されているが、GPT-4の学習データは非公開である。
非公開ではあるものの RLHF (Reinforcement Learning from Human Feedback) という人からのフィードバックによる強化学習が追加されていることは公表されている。GPTが生成した結果に対して、その良し悪しを人間がフィードバックすることで回答の精度を向上させるという仕組みだ。そのフィードバックの中には、例えば爆弾の作成方法などの危険な行為を回答させないようなものも含まれる。こういった倫理観など、人間の主観を学習したことがお絵描きにも影響しているのかもしれない。
もう1つの可能性。現在のChatGPTでは利用できないが、今後は Image Input という新機能でテキストに加えて画像の入力もできるようになるらしい。そもそもGPT-4はマルチモーダルな言語モデルであり画像解析の能力ももっている。ChatGPTに画像入力というインターフェースは搭載されていないが、GPT-4のモデル自体にはすでに画像に関する学習も含まれていてもおかしくない。これがGPT-3.5にはできなかったような人間味のある画力につながっているのかもしれない。
すべては想像にすぎないが、GPT-3.5からGPT-4への進化はとても面白く、改めて汎用人工知能への期待が高まってしまった。最後に、ChatGPTを開発しているOpenAIのウェブサイトに掲げられているミッションを引用して今回のnoteを終わろうと思う。