「ChatGPTと深呼吸の関係」の記事分析から考えたこと。

内容

  1. きっかけ: 「"深呼吸して"と指示すると性能が上がる」記事と私の懐疑的な見解

  2. ファクトチェック1:記事と論文の関係性の整理

  3. ファクトチェック2:ChatGPTを使って各記事の要約(日本語記事、英語記事、論文)

  4. ファクトチェック3:ChatGPTを使った要約手法の再考

  5. 考察:AIを使う際に考慮することはなんだろう。

1.きっかけ: 「"深呼吸して"と指示すると性能が上がる」記事と私の懐疑的な見解

 少し前に、「ChatGPTに「深呼吸しなさい」と指示すると"計算精度が急上昇する"ワケ」
https://www.appbank.net/2023/09/23/technology/2569829.php?page=0
という記事があった。しかし、私はこの記事の内容に懐疑的だった。

なぜなら、ChatGPTが実際に深呼吸することは出来ないし、あるとしたら学習データによる影響しかない。すなわち、人間的な励ましの言葉をかければ、性能が上がるということはない、別の理由がある、と感じたのです。
※このappbank記事の批判ではないです。

2.ファクトチェック1:記事と論文の関係性の整理

 まず、この記事は論文を紹介した内容なので、この記事と論文の関係を整理しておこう。以下この記事のことを「日本語の記事」と略す。

3.ファクトチェック2:ChatGPTを使って各記事の要約(日本語記事、英語記事、論文)

ではChatGPTを使って個々の記事を要約してみる
「日本語の記事」をサマリした結果(LinkReader PlugIn利用)

https://www.appbank.net/2023/09/23/technology/2569829.php?page=0 のサマリ

対象が、ChatGPTやPalm2、ここで一番重要なのは、私は7番の「深呼吸で性能が上がる理由」の記述だと考えるが、私がこのサマリから感じる印象としては主題は、4,5,6あたりの「深呼吸で性能が上がる結果」に思える。

「英語の記事」をサマリした結果(LinkReader PlugIn利用)

https://arstechnica.com/information-technology/2023/09/telling-ai-model-to-take-a-deep-breath-causes-math-scores-to-soar-in-study/ のサマリ

対象が、Palm2と明記、ここでも7が一番重要だと思うが、5,6の「深呼吸の効果」が主題にも思える。ただし、日本語の記事よりもOPROという論文の手法の説明が多め。

「論文の内容(一次情報)」をサマリした結果(Claude2利用)

https://arxiv.org/abs/2309.03409 のサマリ

この概要からすると、論文の主題は、オプティマイザーとしてのLLMで、スコア判定もLLMで行うことで、自動でプロンプトを最適化する話。まさにその名の通り(Optmization by PROmpting)の論文である。

あれ?要約にDeep Breath(深呼吸)が出てこない。Claude2に"deep breath"について質問しても、そんなワードは出てきませんと回答される。これはどういうこと???

仕方ないので、論文を開いて、"deep breath"を検索。検索結果3件。あるじゃん、ええと、table1、table4、table6、全部表の中の文字だ・・・(Claude2は、PDFは表の中の文字までは認識してくれないのだろうか。今回がたまたまか。)論文中にあるファクトは、"Take a deep breath and work on this problem step-by-step." が特定のLLMの特定の問題で一番点数が高いことが、表の数字だけで示されている。

大事なことは、「論文の主張は、点数の高いプロンプトを自動で見つけるOPROの手法の説明」であり、なぜ、点数が高いのかというDeepBreathについての考察が一切載っていないことである。すなわち、Deep Breathについての考察は、「英語の記事」から付加された情報である。

論文>英語の記事>日本語の記事。と参照されて行くにつれて、論文の主題がより見えにくくなっている。ということが分かったのである。

4.ファクトチェック3:ChatGPTを使った要約手法の再考

さてここで、上記の問題を改善するために、ChatGPTへのもっと良いサマリの指示方法って無いのかな?と考えた。すなわち、
「記事の主題」と「記事中に言及されている論文の主題を」を分けて確認する。(記事のメインメッセージ、と、論文のメインメッセージは何か?という聞き方)

英語の記事
日本語の記事

めっちゃいい結果で、明らかに、「記事の主題=人間的なアドバイスが有効」と「論文の主題=OPROが中心、人間的アドバイスの話は入っていない」が違うことが分かる。これは使えそう。

5.考察:AIを使う際に考慮することはなんだろう。

この結果から、思うのは、すべての業務に対して、
 ・この業務はAIに依頼出来るか。出来ないか。
 ・依頼出来るけど、その弊害があるか。
 ・最適な、指示方法は?
を考える習慣をつけるのが良いと思った。使えば使うほど、使い方が浮かんでくるし。それが身につく。

Deep breath で性能が上がることの原因分析につづく…


いいなと思ったら応援しよう!