見出し画像

Whiteboard-of-Thoughtというプロンプトテクニック

みなさん初めまして。

私は日頃からChatGPTの可能性について思案し、日常的に本や論文を読んだり、様々な実験を行ったりしているのですが、そのアウトプットを発信できる場が欲しいなと思い、この度noteを始めてみました。

私なりの知見を活かして、みなさまの知的好奇心を刺激できるような記事を書いていければと思っています。
どこかの誰かに刺さってくれたら嬉しい限りです。



Whiteboard-of-Thought(WoT)について

先日論文を漁っていたら、Whiteboard-of-Thought(WoT)という新しいプロンプトテクニックを提案している興味深い論文を見つけました。

この論文の著者は、最新のLLMはChain-of-Thought(CoT)などのプロンプトテクニックによって算術や記号の推論においては優れた結果を出す一方で、視覚的推論が求められるタスクは困難であるといっており、これは私も同意見です。

筆者はこの問題に対し、新たにWhiteboard-of-Thought(WoT)というプロンプトテクニックを提案しており、これが中々興味深い内容でした。


LLMにはない人間の想像力

本論文の内容をものすごく噛み砕いて言うと、

  • 人間は文字や図形の形状に関する質問をされた際に、頭の中でその文字や図形を思い浮かべて解くことができる

  • 一方で、LLMは質問を文字情報そのままに処理してしまう結果、人間にとっては簡単なタスクであっても解くことができない

という人間とLLMの視覚的認知を伴うタスクの解き方の違いについて指摘しており、LLMも人間のように文字や図形を(Pythonライブラリで描画することで擬似的に)想像することで視覚的推論能力を引き出せるよね、という内容でした。

この主張については私も確かにと思いつつ、プロンプトによって人間のような想像力を擬似的に引き出すというアイデアについて、2024年6月末まで論文として出ていなかったことにも驚きました。(発想自体は非常にシンプルなので)


実際に試してみた

というわけで、本論文に記載されている例を実際に試してみました。

内容としては、はじめにGPT-4oに対して、視覚的認知を伴うタスクとして以下の質問をします。

"Which lowercase letter is a circle with a vertical line touching it to the right going down?"
(円の右側に縦線が接し、下に向かう小文字はどれか?)
➡︎正解は "q"

この質問に対する通常のプロンプトによる出力結果がこちら。

通常のGPT-4oの出力結果

見事にbだと間違ってくれていますね。論文通りの結果になりました。

次に、Whiteboard-of-Thought(WoT)を使用して同じタスクを行わせます。
WoT自体はとてもシンプルな手法であり、質問に付け加えて以下のプロンプトを入力することで、GPT-4oに画像の生成を促します。

"You write code to create visualizations using the {Matplotlib/Turtle} library in Python, which the user will run and provide as images. Do NOT produce a final answer to the query until considering the visualization."
(PythonのMatplotlib/Turtleライブラリを使って可視化するためのコードを書き、それをユーザーが実行して画像として提供します。可視化を考慮するまではクエリに対する最終的な回答を作成しないでください。)

本プロンプトを入力すると、以下の内容が返ってきました

WoTを使用した際の出力結果

PythonのライブラリであるMatplotlibを用いて、質問の回答候補である{a, b, d, p ,q}の画像を出力しようとしていますね。
続けるように促すと、下のような画像を生成してくれました。

WoTを使用した際の出力結果

画像とともに出力された最終的な推論結果を翻訳すると

The visualization shows the lowercase letters 'a', 'b', 'd', 'p', and 'q'. Based on this visualization, the letter that is a circle with a vertical line touching it to the right going down is the lowercase letter "q".
(この視覚化は、小文字の「a」、「b」、「d」、「p」、「q」を示している。このビジュアライゼーションに基づくと、円形で、右下に向かって縦線が接している文字は小文字の「q」である。)

見事に正解を出力してくれていますね。シンプルでありながら非常に利便性の高い手法なのではないでしょうか。


終わりに

今回はWhiteboard-of-Thought(WoT)という新しいプロンプトテクニックを紹介しました。

この論文が公開されたのは2024年6月20日であり、ChatGPTが公開されてから長い年月がたった今でもこのような新しいプロンプトテクニックが出てくるのが、LLM界隈の面白いところでもあり、同時に恐ろしいところでもありますね。

今後もこのようなChatGPTに関する有益な情報を発信していく予定ですので、ぜひともチェックしていただけたら嬉しいです。

最後までお読みいただきありがとうございました。

いいなと思ったら応援しよう!

この記事が参加している募集