自作の5択問題をLLMに解かせる

2024年6月10日 22:12

　個人的趣味に基づいて100題の5択問題を作ってLLMに解かせてみました。

一応結果

ルール

　システムプロンプトはなしで、以下のような文章を入力、予測確率が一番高いトークンを答えとします。APIの場合は確率が取り出せないので、出力の一文字目を取り出し、記号が一文字目に来なかった場合は手動で答えを入力してあげました（たいてい1文字目で記号を出力してくれました）。
　以下はcommand-rの場合

<|START_OF_TURN_TOKEN|><|USER_TOKEN|>以下の問題の答えを選択肢から選んで記号のみを答えてください。
分類:{category}
問題:{problem}
選択肢:
A. {A}
B. {B}
C. {C}
D. {D}
E. {E}
<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

単に選択問題を答えるだけなので知識しか評価していません。ただし次のトークンしか評価していないので、記号のみ答えろっていう指示を聞けないモデルはだめだめな結果になるようです。
　また知識関係なくこれだけはあり得ないだろうという選択肢を用意してそれを選んだ数もかぞえています。

総合結果

　こんな感じになりました。GPT-4o最強！Gemini 1.5 Proも頑張っていますね。反対にClaude 3 opusは期待外れな結果に・・・どうしてだろう？
　command -r plusはAPI→iq3xxsは何とか性能保ってる感じですが、iq2xxsになるとだめだめですね。
　オープンモデルではSwallow 70Bが1位ということになりました。結構びっくりしました。すごいですね。ほかにもnekomata-14bもなかなかいいし、日本語データセットによる継続事前学習の効果が意外にも出ている感じがします。
　aya-23-35Bはcommand-r-v01からどのくらい性能が上がったのかよくわからなかったのですが、この結果だけ見ているといい感じですね。

興味深い問題まとめ

問4 MLBシーズン最多安打記録を持つ選手は？

　全AI正解！さすがわれらがイチローだが、そもそもほかの選択肢が微妙だったかもしれない・・・。

問9 WBC2009の決勝日本対韓国で決勝タイムリーを放った選手は？

　正解率高くあって欲しかった問題です・・・。2009年だからか大谷と答えるAIはいなかったようですが、なんでこんなに正解率低いんでしょうか。karakuri 8x7bは絶対スポナビのMVP投票で小林選手に入れるような奴ですね。

問14 最年少棋士の記録を持つ棋士は誰？

圧倒的正解率を誇るGPT-4oさんだけ間違えているというのはびっくりくりくりくりとりすですね。たしかに加藤九段は前記録保持者ですけどね（しかも最年長棋士記録保持者・・）
ちなみにわたしは観る将どころか将棋の中身にすらあまり興味を持っていない記録が大好きなだけの人間なので、このカテゴリはこういう問題ばっかりです。

問19 名人・王将・棋聖のタイトルを持っている棋士は何と呼ばれる？

　ほとんどのモデルが引っ掛かりました。タイトルを複数持っていても、名人を持っていれば名人、竜王を持っていれば竜王、両方持っていれば竜王・名人が正式になります。現在八冠独占中のあの棋士は、藤井竜王名人と呼びます。メディアでは藤井八冠ってよく呼ばれますけどね（それがダメとは思っていない）。正解したモデルもあんまりよくわからず答えてるような感じがするけどどうなんだろう。

問22 フェルマーの最終定理を証明したのはだれ？

　全AI正解！余白が足りていたら答えは違ったのに・・・。

問24 xlog(x)を微分した結果はどれか？

　選択問題で記号のみ答えろと呼ばれると、LLMは推論することができないのでこういうの難しいんじゃないでしょうか。一発で答えられたモデルは計算したというより覚えていたんでしょうかね。xlog(x)+1という回答が多かったですが、そもそも微分したら+1されることなんてあるのと思ってChatGPTに聞いてみたらCe^x-1と返ってきた。たしかに。