前回のnoteでは出力をSVGとすることでChatGPTに絵を描く能力があることをお伝えした。内容としては少しネタっぽいものになってしまったが、今回はこのChatGPTの画力についてもう少し深掘りしてみる。
なお、前回と同様にChatGPTのモデルにはGPT-4を使用している。
ChatGPTにクチバシを修正させる
深掘りする前に、前回途中で諦めてしまったクチバシの形状について修正することを考えてみる。前回はクチバシは「菱形」をしているということをChatGPTに伝えてみたが、それがうまく伝わらなかったか、もしくは正しく出力できるほど菱形に関する知識がなかったのかもしれない。そこで、菱形について詳細をインプットした上で修正させてみることにした。
<svg width="200" height="200" xmlns="http://www.w3.org/2000/svg">
<path d="M50,70
Q50,35 90,35
Q120,35 120,70
Q120,100 90,100
Q70,110 60,100
Q40,100 50,70"
fill="yellow"/>
<circle cx="75" cy="50" r="5" fill="black"/>
<circle cx="105" cy="50" r="5" fill="black"/>
<polygon points="90,55 80,65 90,75 100,65" fill="orange"/>
<path d="M65,100
Q60,100 60,115
M65,100
Q70,115 80,115
M105,100
Q110,115 120,115
M105,100
Q115,100 120,115"
stroke="orange" stroke-width="3" fill="none"/>
<path d="M45,70
Q20,60 45,50
M135,70
Q160,60 135,50"
stroke="yellow" stroke-width="6" fill="none"/>
</svg>
めでたく意図したとおりの菱形のクチバシをChatGPTは描いてくれた。
ここで注目したいのは、ChatGPTが菱形について詳細を伝えれば描くことができる、ということではなく、菱形の特徴として伝えた「菱形は上・下・左・右に頂点があり」という部分について、上下左右の位置関係を空間的に理解した上で菱形を描いた可能性があるという点だ。
前回のnoteではChatGPTの描くひよこが稚拙であるようなイメージでお伝えしたが、実はChatGPTの空間認知力をもっていることを感じさせる興味深い内容となっている。その理由は次のとおり。
GPTはテキストで表現された知識を元にトレーニングされているが、これにより一般的なもの(今回では生物)を構成する部品の位置関係のようなものは理解しているように見える。
ChatGPTによるChatGPTが持つ空間認知力の解説
このChatGPTの空間認知力について、せっかくなのでChatGPT自身に問いかけてみた結果、次のとおりとても納得感のある回答が得られた。
前回のnoteで私はChatGPTの画力について次のようにまとめたが、ChatGPTはまさにこれだったのだ。
ChatGPTは「訓練されたほどの画力はないけれど、ひよこや一般的なものの位置関係などの基本的な知識を持つ人が描くレベルの画力は持ち合わせている」ということだ。だから小さな子供が描いたような絵に仕上がるのだろう。このことについても同様にChatGPTに伝えてみた。
汎用人工知能としてのGPT
前回のnoteに対するコメントでMicrosoftの論文 Sparks of Artificial General Intelligence(Early experiments with GPT-4) について教えていただいた。この論文では、GPT-4が人間と同様の感性や思考回路をもつ汎用的な人工知能となりうるのかということについて、さまざまな実験とその考察について書かれている。
その中に画像生成に関する章にある、Y・O・Hの3つの文字の形を組み合わせて人物を描くようにGPTに指示するという実験を紹介する。
アルファベット記号で構成された棒人間
著者はこの結果に対して次のように考察している(原文からChatGPTに要約と翻訳をさせたもの)。
最初の画像ではO・H・Yの3文字が人間に見えるように空間的にほぼ正しい位置に配置されている。次に腕や胴の長さや顔の位置などについての修正依頼をすることで、2枚目の画像では正解と言って良いレベルの絵ができあがってしまう。
さらに面白いのは、O・H・Yの3文字それぞれが人間のどの要素に近いかを理解している点や、自分の描いた絵の中でどこが体でどこが手や脚であるかを幾何学的に把握し、シャツやズボンを正しく着させた絵を仕上げてくるところだ。
さいごに
ひよこ🐤の結果や紹介した論文の結果は、ChatGPTが空間認知力をもっている可能性の高さを示すものであると感じる。そして、この論文が示す「GPT-4(ChatGPT)が最初の汎用人工知能である」という主張について、肯定的に捉えたくなってしまう内容であった。まさにChatGPTは汎用人工知能のとして生まれたばかりのひよこなのかもしれないピヨ🐣。