見出し画像

日本語大規模言語モデルを比較するためのプロンプト


はじめに

GPT-4, Gemini, Claude 3, Mistral, Llama2, Grok-1と大規模言語モデルがオープン、クローズドとたくさんでてきています。精度比較ビデオからみた簡単な精度比較のプロンプトを紹介します。(2024年4月3日犯人A,B,C問題を追記)

大規模言語モデルを比較するためのプロンプト

見ているとこんな感じです:

  • 算数

    • 1+2+3=

    • リンゴが5個ありました。リンゴを2個食べました。隣からリンゴを8個もらいました。リンゴが2個くさっていたので捨てました。今、リンゴは何個ですか?

  • 論理

    • 太郎は次郎より速く走ります。次郎は三郎より遅くはありません。四郎は四人の中で一番遅いです。四人の中で一番速いのは誰です

    • 黄色いボールをスーツケースに入れました。スーツケースから黄色いボールを出して、机の下に置きました。スーツケースをもって空港まで行き、ロンドンへ行きました。スーツケースからスカーフを出して首に巻きました。そのあとスーツケースは地下鉄で盗まれてしまいました。ロンドンから無事に家に帰りつきました。黄色いボールはどこにありますか?

    • 5枚のシャツを庭で乾かすのに3時間かかります。25枚のシャツを乾かすのには何時間かかりますか?

    • 会社のお金が誰かに横領されてしまった。社員Aは「犯人はBです!」と発言した。社員B, Cもある発言をした。その後 『犯人はA, B, Cのうち誰か1人』『犯人だけが本当のことを言った』ということがわかった。犯人は誰?

  • 末尾生成

    • 「帰りました」で終わる日本文を10個生成してください

  • 自己言及

    • この質問に対する回答の文字数を教えて

    • 「今日は何曜日ですか」という質問に対する答えの文字数を教えて

  • 長文作成

    • 初心者が100万円かせぐ方法のブログの記事を書いて(長くなるので今回はこれはトライしません)

試してみた

GPT-4, GPT-3.5, Gemini Proで試してみました。Geminiは聞いてもバージョン番号を教えてくれませんが、多分 Gemini Pro 1.5です。聞くたびに同じ答えにはならないのでご参考程度です。GPT-4とGPT-3.5はChatGPT Plusで切り替えて使っているので履歴の影響もあるかもしれません。回答の中に箇条書きがはいっているものはまぎらわしいので平文に戻しました。

算数

  • 1+2+3=

    • (GPT-4) 1+2+3=6です。

    • (GPT-3.5) 1 + 2 + 3 = 6

    • (Gemini Pro) 1+2+3 = 6

    • [短評] 答えは同じですが、Geminiは全角で答えています

  • リンゴが5個ありました。リンゴを2個食べました。隣からリンゴを8個もらいました。リンゴが2個くさっていたので捨てました。今、リンゴは何個ですか?

    • (GPT-4) 今、リンゴは9個です。

    • (GPT-3.5) 最初に5個ありましたが、2個食べたので残りは3個です。その後、隣から8個もらったので、3個(残っていたリンゴ) + 8個(もらったリンゴ) = 11個になります。しかし、その中で2個が腐っていたので、それらを捨てると、11個 - 2個 = 9個が残ります。したがって、現在は9個のリンゴがあります。

    • (Gemini Pro) 最初に5個のリンゴがあり、2個食べたので、3個残ります。その後、隣から8個もらったので、11個になります。しかし、2個が腐っていたので、9個になります。よって、今リンゴは9個です。答え:9個

    • [短評] GPT-4は論理過程も説明してくれるのですが、今回は単刀直入でした。

論理

  • 太郎は次郎より速く走ります。次郎は三郎より遅くはありません。四郎は四人の中で一番遅いです。四人の中で一番速いのは誰ですか

    • (GPT-4) この問題を解決するためには、各人の相対的な速さを比較して整理する必要があります。- 太郎は次郎より速く走ります。- 次郎は三郎より遅くはありません。(つまり、次郎は三郎と同じかそれ以上に速い)- 四郎は四人の中で一番遅いです。これらの情報から以下のように整理できます:1. 四郎が最も遅い。2. 太郎は次郎より速い。3. 次郎は三郎より遅くはない(次郎≥三郎)。これに基づくと、太郎が一番速く走る可能性が高いです。太郎は次郎より速く、次郎は少なくとも三郎と同等かそれ以上で、四郎は最も遅いからです。従って、四人の中で一番速いのは太郎です。

    • (GPT-3.5) 太郎が次郎より速いということから、太郎が一番速いことが分かります。

    • (Gemini Pro) 太郎は次郎より速く走ります。次郎は三郎より遅くはありません。つまり、太郎は三郎より速いか、同じ速さで走ります。四郎は四人の中で一番遅いです。
      以上のことから、四人の中で一番速いのは太郎であることが分かります。
      補足

      • 太郎と三郎の速さは、今回の情報だけでは断定できません。

      • 四郎は四人の中で一番遅いですが、他の三人との差は不明です。

    • [短評] 答えはあっていますが、GPT-3.5はやや唐突です。Gemini Proは補足がついています。

  • 黄色いボールをスーツケースに入れました。スーツケースから黄色いボールを出して、机の下に置きました。スーツケースをもって空港まで行き、ロンドンへ行きました。スーツケースからスカーフを出して首に巻きました。そのあとスーツケースは地下鉄で盗まれてしまいました。ロンドンから無事に家に帰りつきました。黄色いボールはどこにありますか?

    • (GPT-4) 黄色いボールは机の下に置かれています。

    • (GPT-3.5) 黄色いボールは机の下にあります。

    • (Gemini Pro) スーツケースに入れてロンドンまで持って行ったのですが、スーツケースは盗まれてしまいました。しかし、黄色いボールはスーツケースから出して机の下に置いていたため、盗難には遭いませんでした。よって、黄色いボールは現在も机の下にあるはずです。

    • [短評] Gemini Proが一番論理的そうですが、「スーツケースに入れて」のところがあやしいです。

  • 5枚のシャツを庭で乾かすのに3時間かかります。25枚のシャツを乾かすのには何時間かかりますか?

    • (GPT-4) 乾かすシャツの枚数が5倍になるので、同じ比率で時間も5倍になります。したがって、3時間の5倍を計算します。3時間×5=15時間 よって、25枚のシャツを乾かすのには15時間かかります。

    • (GPT-3.5) 1枚のシャツを乾かすのにかかる時間が一定であると仮定すると、5枚のシャツを乾かすのに3時間かかるので、1枚のシャツを乾かすのには3時間 ÷ 5枚 = 0.6時間(または36分)かかります。したがって、25枚のシャツを乾かすのには、0.6時間/枚 × 25枚 = 15時間かかります。

    • (Gemini Pro) 5枚のシャツを乾かすのに3時間かかるので、1枚のシャツを乾かすのに3 / 5 = 0.6時間かかります。
      25枚のシャツを乾かすには、25 * 0.6 = 15時間かかります。
      答え: 25枚のシャツを乾かすのに15時間かかります。
      補足

      • シャツはすべて同じ大きさで、同じ素材であると仮定しています。

      • 天候や風の強さは一定であると仮定しています

      • 参考情報

        • シャツ: [無効な URL を削除しました]

        • 庭: [無効な URL を削除しました]

        • 時間: [無効な URL を削除しました]

    • [短評] これはひっかけ問題ですが、すべて同じ答えとなりました。題意は何枚乾かしても同じ3時間のつもりでした。

  • 会社のお金が誰かに横領されてしまった。社員Aは「犯人はBです!」と発言した。社員B, Cもある発言をした。その後 『犯人はA, B, Cのうち誰か1人』『犯人だけが本当のことを言った』ということがわかった。犯人は誰?

  • (GPT-4) 状況を整理しましょう。

    • 1. 会社のお金が横領された。

    • 2. 社員Aは「犯人はBです!」と発言した。

    • 3. 社員BとCも何か発言したが、内容は不明。

    • 4. 犯人はA, B, Cのうちの1人で、犯人だけが本当のことを言った

    • この情報から、以下のように考えられます。

    • - もしAが犯人だとすると、Aは真実を話していることになり、これは「犯人だけが本当のことを言った」というルールに反します。従って、Aは犯人ではない。

    • - Bが犯人であれば、Aの発言は真実となり、これもまた「犯人だけが本当のことを言った」というルールに反します。従って、Bも犯人ではない。

    • - 以上より、Cが犯人であり、Cだけが本当のことを言っていたという結論になります。

    • 従って、犯人はCです。

  • (GPT-3.5) この問題は論理パズルの一種で、真実を言っている者を見つける問題です。与えられた情報を整理し、真実を言っている可能性のある候補を絞り込んでいきます。

    • まず、与えられた情報を整理しましょう。

    • 1. AはBを犯人と指摘した。

    • 2. BとCも発言した。

    • 3. 「犯人はA, B, Cのうち誰か1人」である。

    • 4. 「犯人だけが本当のことを言った」ということである。

    • この状況から、A, B, Cのうち1人だけが真実を言っており、残りの2人は嘘をついている可能性があります。

    • まず、4番目の条件から、犯人は本当のことを言っていると仮定しましょう。この仮定のもと、他の発言を検討します。

    • もしAが犯人ならば、BもCも真実を言っており、条件に合致しません。同様に、もしBが犯人ならば、AもCも真実を言っており、条件に合致しません。しかし、もしCが犯人ならば、AもBも嘘をついていることになり、条件に合致します。

    • したがって、犯人はCです。

  • (Gemini Pro 1.5) 犯人はCです。

    • まず、Aの発言「犯人はBです!」は、犯人がBであると主張していますが、犯人だけが本当のことを言っているので、Aは犯人ではないことがわかります。

    • 次に、BとCの発言内容は問題文に書かれていないため、ここでは仮にBは「犯人はAです!」、Cは「犯人はCです!」と発言したとします。

    • この場合、Aは犯人ではないのでBの発言は嘘になり、Cの発言だけが本当になります。

    • よって、犯人はCであることがわかります。

    • ただし、問題文にはBとCの発言内容が書かれていないため、上記はあくまで一例であり、他の可能性も考えられます。

    • 例えば、Bが「犯人はCです!」、Cが「犯人はAです!」と発言していた場合、犯人はBである可能性もあります。

    • この場合、BとCの発言はどちらも嘘になり、唯一本当のことを言っているAが犯人ということになります。

    • いずれにしても、犯人確定にはBとCの発言内容が不可欠であり、問題文の情報だけでは犯人を特定することはできません。

  • [短評] 結論の犯人はCは全部が正解しました。しかし、GPT-3.5とGemini Pro 1.5は一部論理が破綻しています。

末尾作成

  • 「帰りました」で終わる日本文を10個生成してください

    • (GPT-4) もちろんです。以下に、「帰りました」で終わる日本文を10個ご提供します。1. 長い一日の仕事を終えて、やっと家に帰りました。2. 友達とカフェで楽しい時間を過ごした後、夕方には帰りました。3. 遠くの親戚を訪ねて、三日間の旅行から帰りました。4. 図書館で勉強して、夜遅くに帰りました。5. コンサートが終わって、興奮しながら家に帰りました。6. 海外出張から無事に帰りました。7. 近くの公園で散歩した後、家に帰りました。8. 大学の入試試験が終わり、ホッとして帰りました。9. 新しい街を一日中探検した後、疲れてホテルに帰りました。10. 映画館で最新の映画を見て、夜の街を通って帰りました。

    • (GPT-3.5) もちろんです。以下は、それぞれ「帰りました」で終わる日本文の例です。1. 今日は長い一日でしたが、無事に家に帰りました。2. 仕事が終わり、疲れた体を癒しながら、家に帰りました。3. 雨が降ってきたので、急いで外から帰りました。4. お買い物を楽しんだ後、家族と一緒に帰りました。5. 友達と楽しい時間を過ごした後、各々の家に帰りました。6. 食事を済ませ、家に帰りました。7. ハイキングから帰り、心地よい疲れと満足感を感じました。8. 運動をして汗を流し、シャワーを浴びてから家に帰りました。9. 映画を観て楽しんだ後、夜遅くに家に帰りました。10. 旅行から帰り、普段の生活に戻る喜びを感じました。

    • (Gemini Pro) 

      1. ようやく仕事が終わって、家に帰りました。

      2. 今日は一日中買い物をしていて、疲れました。でも、たくさん買えたので満足です。帰りました。

      3. 友達と遊んでいたら、あっという間に時間が過ぎてしまいました。もうこんな時間か。帰りました。

      4. 今日は久しぶりに家族とゆっくり過ごせました。楽しい一日でした。帰りました。

      5. 旅行から帰ってきました。旅先でたくさんの思い出を作れました。

      6. 長かった出張からようやく帰ってきました。家族に会えて嬉しいです。

      7. 病院に行ったら、思っていたより早く診察が終わりました。帰りました。

      8. 今日は朝から忙しかったけど、なんとか予定通りに全て終わらせました。帰りました。

      9. 雨が降ってきたので、急いで家に帰りました。

      10. 今日は何も予定がないので、家でゆっくり過ごします。帰りました。                             これらの文は日常生活や特別なイベントを経験した後の「帰りました」の感覚を表しています。

    • [短評] よくみるとGPT-3.5の7.は間違っています。Gemini Proも「。帰りました。」になっているのが残念ですし、5. , 6.は間違っています。

自己言及

  • この質問に対する回答の文字数を教えて

    • (GPT-4) Error analyzing   Error analyzing  It seems there's an issue with running the code right now, but I can tell you that the sentence "この質問に対する回答の文字数を教えて" consists of 23 characters, including both the kanji, hiragana, and the punctuation. ​

    • (GPT-3.5) 申し訳ありませんが、質問の内容が不明確なため、正確な回答の文字数を提供することができません。具体的な質問があれば、お手伝いしますので、どうぞお知らせください。

    • (Gemini Pro) この質問に対する回答の文字数は、質問の内容や回答の仕方によって異なります。質問の種類と、それに対応する回答の文字数の目安は以下のとおりです。はい/いいえで答えられる質問: 50文字程度 簡単な説明を求める質問: 100-300文字程度 具体的なエピソードを求める質問: 300-500文字程度 自分の考えや意見を求める質問: 500-1000文字程度 ただし、上記はあくまで目安であり、必ずしもその文字数にこだわる必要はありません。大切なのは、質問に対して簡潔かつ明確に答えることです。回答が長すぎると、読み手に負担がかかってしまいます。また、話が脱線したり、 irrelevant な情報が含まれていたりすると、回答の信頼性が損なわれてしまいます。質問の意図をしっかりと理解し、簡潔で分かりやすい回答を心がけましょう。具体的には、以下の点に注意すると良いでしょう。

      • 結論を先に述べる

      • 不要な言葉を省く

      • 具体的な例を挙げる

      • 分かりやすい言葉を使う                   回答の長さは、質問の内容や回答の仕方によって異なります。大切なのは、質問に対して簡潔かつ明確に答えることです。

    • 「今日は何曜日ですか」という質問に対する答えの文字数を教えて

      • (GPT-4)「今日は何曜日ですか」という質問に対する答え「今日はX曜日です」の文字数は8文字です

      • (GPT-3.5)「今日は何曜日ですか」という質問に対する答えの文字数は、日本語で「水曜日」ならば4文字、「Thursday」ならば8文字になります。

      • (Gemini Pro) 「今日は何曜日ですか」という質問に対する答えの文字数は、約50文字です。

        • 具体的な回答例としては、以下のとおりです。今日は木曜日です。本日、2024年3月28日は木曜日です。

        • これらの回答は、簡潔かつ明確に質問に答えています。

        • また、日付も含めることで、より丁寧な回答になります。

        • ただし、状況によっては、より詳細な回答が必要になる場合もあります。

        • 例えば、以下のような場合です。

          • 特定の地域の時刻を知りたい場合

          • 祝日かどうかを知りたい場合

        • このような場合は、以下のとおり回答します。

          • 日本時間では、本日2024年3月28日は木曜日です。

          • 明日は金曜日ですが、日本では振替休日で国民の休日です

          • このように、状況に応じて回答の文字数を調整することが重要です。

        • ポイント

          • 簡潔かつ明確に答える

          • 必要に応じて詳細情報を追加する

          • 読みやすい文章にする

      • [短評] GPT-3.5も少しあやしいです(質問したのは木曜日なので)。Gemini Proは詳しいですが少し論点がずれているかもしれません。

おわりに

日本語大規模言語モデルを比較するためのプロンプトを紹介しました。よいプロンプトがあれば教えてください。

参考文献

  • Grok-1 FULLY TESTED - Fascinating Results!   https://www.youtube.com/watch?v=QO5YQHFfbRY Matthew Berman  2024年 8m26s

  • New Claude 3 “Beats GPT-4 On EVERY Benchmark” (Full Breakdown + Testing) https://www.youtube.com/watch?v=sX8Ri3w2MeM Matthew Berman 2024年 26m09s

  • 【最強のAI】世界最高峰AI「GPT-4」 V.S Google史上最強AI「Gemini Ultra」 https://www.youtube.com/watch?v=aXdxTQL5PC4 Web職TV 2024年 20m31s

  • 【ググる→AI検索時代へ】これは凄い・・!「Perplexity AI」を徹底レビュー【GPT-4/Claude3も使える】 https://www.youtube.com/watch?v=38xATHivvcY mikimiki webスクール 2024年 27m15s


この記事が気に入ったらサポートをしてみませんか?