X(Twitter)上で、メタ認知プロンプティングの論文が話題になっていたので、簡単なメタ認知プロンプトを作成して、その効果を試してみました。
また、メタ認知プロンプトから着想を得た他の類似プロンプトについても試してみたので報告します。
※タイトルの画像はAIいらすとやの画像を使用。
1.メタ認知プロンプトとは?
メタ認知プロンプトとは、以下の論文「メタ認知プロンプティングは大規模言語モデルの理解を向上させる」で提案された、人間の内省的推論プロセスに着想を得たプロンプトであり、標準的なプロンプトや思考連鎖(Chain of Thought)プロンプトなどの手法を常に凌駕する結果が得られたとのことです。
メタ認知とは、自分が認知していることを認知すること、つまり、自分が行っている行動や思考を客観的に把握し、制御することを指します。このメタ認知能力によって、冷静な判断を可能にしたり、問題解決能力を向上させたりすることができると言われています。
この論文では、メタ認知プロンプトについて、次のように説明しています。
メタ認知プロンプトは、人間のメタ認知能力の一部をまねたもので、以下の5つの段階から構成されています。
2.メタ認知プロンプトの効果をテスト
(1) カスタム指示用簡単メタ認知プロンプト
上記1のメタ認知プロンプトに関する説明を参考にして、ChatGPTのカスタム指示用の簡単なメタ認知プロンプトを作成してみました。
このプロンプト(指示文)を使用するには、以下のようにカスタム指示の入力画面の下段にコピーして、Saveボタンをクリックしてください。
それでは、このメタ認知プロンプトを使用して、実際の問題にチャレンジしてみましょう。
(2) 指輪の位置を尋ねる問題
以下の質問は、海外の人工知能研究者が提案した言語モデルの常識力を判定する有名な問題をアレンジしたものです。
メタ認知プロンプトを使用しないChatGPTのGPT-3.5モデルの回答は以下のとおりです。
次に、メタ認知プロンプトのカスタム指示を使用したGPT-3.5モデルの回答は以下のとおりです。
メタ認知プロンプトによって回答が改善されました。
もちろん、ChatGPTは毎回、回答が変わるため、失敗することもあります。しかし、メタ認知プロンプトを使用しないとほぼ確実に間違えるのに対して、かなり正答率が上がるようです。
なお、ChatGPTのGPT-4モデルはGPT-3.5より性能が高いため、メタ認知プロンプトを使用しなくても、最初からこの問題に正解すること多いようです。
(3) 誕生日を推理する論理クイズ
次の問題は有名な論理クイズです。解き方を知らないと、人間でもこの問題を解くのは難しいと思います。
メタ認知プロンプトを使用しないChatGPTのGPT-4モデルの回答は以下のとおりです。
この問題は、GPT-4モデルでも解くのが難しいようです。問題を解く過程を解説していますが、間違いが多く、なぜこの答えになったのかがよく分かりません。
次に、メタ認知プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
GPT-4は、この問題に正解しており、論理も概ね正しいですが、説明が不十分です。また、③の批判的評価があまり機能していません。しかし、メタ認知プロンプトを使用する前の回答と比較して、回答が改善されたと言えると思います。
なお、この問題の詳しい解説は以下のとおりです。
【再掲】
5月15日、5月16日、5月19日
6月17日、6月18日
7月14日、7月16日
8月14日、8月15日、8月17日
18日か19日であれば、Bは一発で誕生日が分かりますが、Aが「Bも分かっていないことは分かる」と発言していることから、Bが一発で分かる可能性のある5月と6月は誕生月ではありません。
残りは7月か8月となりますが、Bが誕生日が分かったことから、月が特定できない14日(7月14日と8月14日)は誕生日ではありません。
最後にAが誕生日が分かったことから、一つの日付しか残っていない7月、つまり、7月16日が誕生日だと分かります。(8月の場合は、Aが15日か17日か特定できないため)
(4) 距離を求める算数の問題
メタ認知プロンプトを使用しないChatGPTのGPT-4モデルの回答は以下のとおりです。
次郎が太郎を追い越した時間(8時25分)は合っていますが、次郎は太郎より9分早く学校に着いたのであって、その間に次郎が9分間進んだ訳ではありません。
次に、メタ認知プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
正解です。③の批判的評価で、的確に②の最初の回答案(実際には方程式)の誤りを指摘しています。メタ認知プロンプトによって回答が改善したと言えます。
(5) AI活用ビジネスの成功の秘訣に関する質問
メタ認知プロンプトを使用しないChatGPTのGPT-4モデルの回答は以下のとおりです。
十分に有効なアドバイスになっています。
次に、メタ認知プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
②の最初の回答案に対して、④の最終的な回答では、より生成AIの活用という観点に着目した回答になっています。
ただし、メタ認知プロンプト使用前の回答の出来がよかったため、必ずしも、メタ認知プロンプトの使用によって回答が改善したとは言えないと思います。
3.比較考量プロンプト
(1) 比較考量プロンプトについて
メタ認知プロンプトに触発されて、また違うプロンプトを考えてみました。このプロンプトでは、複数の回答案を考えて比較することによって、最適な回答を求めます。
このプロンプトをカスタム指示の入力欄にコピーして使用します。
(2) 指輪の位置を尋ねる問題
比較考量プロンプトのカスタム指示を使用したGPT-3.5モデルの回答は以下のとおりです。
第二の回答案の方が正しいのですが、残念ながら第一の回答案の方を選択してしまいました。ただし、比較考量プロンプトを使用する前よりは、可能性を幅広く検討して、正解に近づいたということは言えるでしょう。
(3) 誕生日を推理する論理クイズ
比較考量プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
答えは正解していますが、誕生日は6月か8月と絞り込んだのに7月16日と回答するなど論理は破綻しており、正解したのは偶然でしょう。
第一の回答案と第二の回答案も同じであり、比較考量プロンプトの意味は、あまりありませんでした。
(4) 距離を求める算数の問題
比較考量プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
計算ミスが多いです。第一の回答案で、60x = 150x - 3600からx=40を正確に求められていたら正解でした。
また、論理的におかしなところも沢山あります。
比較考量プロンプトは、それほど回答の改善に寄与していないようです。
(5) AI活用ビジネスの成功の秘訣に関する質問
比較考量プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
どちらかの回答案を選択するだけではなく、両者の良いところを組み合わせて最終的な回答を作成したことは評価できます。また、「成功の秘訣は、技術面と市場戦略のバランスを取ること」と非常に良いポイントを突いています。
ただし、全体的に見て、メタ認知プロンプトの方がより質の高い回答を作成できる場合が多いようです。
4.メタメタ認知プロンプト
(1) メタメタ認知プロンプトについて
このような質問回答のアプローチ方法自体をChatGPTに考えさせることはできないかと考えて、次のようなプロンプトを作成してみました。これは、質問に回答するための考え方を更に上位から考えさせるという意味で「メタメタ認知プロンプト」と名付けました。
目的に至るための最適な方法をAI自体に探させるこのプロンプトの考え方は、Baby-AGIや林駿甫氏のシュンスケ式プロンプト(ゴールシークプロンプト)の考え方に近いのでしょうか。
(2) 指輪の位置を尋ねる問題
メタメタ認知プロンプトのカスタム指示を使用したGPT-3.5モデルの回答は以下のとおりです。
一般的なステップバイステップの考え方(Chain of Thought)ですね。丁寧に指輪の位置を確認しながら段階的に考えているのですが、正解には到達できませんでした。メタ認知プロンプトの方が効果があったようです。
(3) 誕生日を推理する論理クイズ
メタメタ認知プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
答えは正解していますが、論理は滅茶苦茶であり、正解したのは偶然でしょう。ここでも、メタメタ認知プロンプトは、メタ認知プロンプトほどの効果を発揮できなかったようです。
(4) 距離を求める算数の問題
メタメタ認知プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
これも一般的なステップバイステップの考え方です。
計算ミスが多く、論理的におかしなところも沢山あります。
メタメタ認知プロンプトは、今回も回答の改善にあまり寄与しませんでした。
(5) AI活用ビジネスの成功の秘訣に関する質問
メタメタ認知プロンプトのカスタム指示を使用したGPT-4モデルの回答は以下のとおりです。
ステップバイステップの考え方はできていますが、実行の方が内容が薄く、メタ認知プロンプトほどの効果は上げられていません。
基本的に、筆者が考えたメタメタ認知プロンプトでは、一般的なステップバイステップ(Chain of Tkought)の考え方と同じになってしまうようです。もう少しプロンプトの修正が必要です。
ここまで見てくると、やはり最初のメタ認知プロンプトは、かなり優秀なようです。
5.その他の思考プロセスを利用したプロンプト
その他にも、ChatGPTの質問回答のアプローチとして使える思考プロセスはないか試してみました。
(1) クリティカルシンキング
最終的に正解には至りませんでしたが、クリティカルシンキングという名前を出すだけで、メタ認知プロンプトと同じように仮説を立てて、それを検証する段階的なアプローチを実行してくれました。
丁寧な論理的アプローチによって、質の高い回答が作成されたと思います。
(2) イシュードリブン思考
回答は改善されませんでした。今回は、イシュードリブン思考は有効ではなかったようです。
イシューを洗い出して個別に検討する手法により、質の高い回答が作成されたと思います。
(3) 弁証法的思考
弁証法的思考は、対立する概念を解決するための思考法なので、こういう正解のある客観的な問題には使いにくいですね。
弁証法的思考は、このような賛否の分かれるテーマを扱う場合に役立ちます。
6.まとめ
こうして見てくると、やはり、最初のメタ認知プロンプトは汎用的で有効性が高く、かなり使えそうです。
また、クリティカルシンキングも、アプローチ方法を細かく指定しなくても、ChatGPTが段階的に適切なアプローチを実行してくれるので便利です。
比較考量プロンプト、イシュードリブン思考及び弁証法的思考は、これらの思考プロセスに合った問題であれば使えそうです。
メタメタ認知プロンプトはどんな問題にも使える汎用性があるので、ポテンシャルは高いと思いますが、現状では、それほど効果を発揮できていません。もう少しプロンプトの表現に改善の余地がありそうです。
いずれにせよ、こうした思考プロセスを利用したメタ認知的なプロンプトは、ChatGPTには有効ですので、皆さんも是非、色々と試してみてください。
もし、非常に有効性が高くて汎用性のあるプロンプトが見つかれば、それは、汎用的人工知能プログラムへの第一歩かも知れません。
なお、最後におまけとして、カスタム指示を使わずに、簡単にChatGPTの回答のレベルを引き上げられるプロンプトを紹介します。「ステップバイステップで考えてください。」よりも課題が整理された質の高い回答が得られる可能性がアップすると思います。