自作の5択問題をLLMに解かせる

 個人的趣味に基づいて100題の5択問題を作ってLLMに解かせてみました。

一応結果


ルール

 システムプロンプトはなしで、以下のような文章を入力、予測確率が一番高いトークンを答えとします。APIの場合は確率が取り出せないので、出力の一文字目を取り出し、記号が一文字目に来なかった場合は手動で答えを入力してあげました(たいてい1文字目で記号を出力してくれました)。
 以下はcommand-rの場合

<|START_OF_TURN_TOKEN|><|USER_TOKEN|>以下の問題の答えを選択肢から選んで記号のみを答えてください。
分類:{category}
問題:{problem}
選択肢:
A. {A}
B. {B}
C. {C}
D. {D}
E. {E}
<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

単に選択問題を答えるだけなので知識しか評価していません。ただし次のトークンしか評価していないので、記号のみ答えろっていう指示を聞けないモデルはだめだめな結果になるようです。
 また知識関係なくこれだけはあり得ないだろうという選択肢を用意してそれを選んだ数もかぞえています。

総合結果

省略してますが全部instructモデルです。

 こんな感じになりました。GPT-4o最強!Gemini 1.5 Proも頑張っていますね。反対にClaude 3 opusは期待外れな結果に・・・どうしてだろう?
 command -r plusはAPI→iq3xxsは何とか性能保ってる感じですが、iq2xxsになるとだめだめですね。
 オープンモデルではSwallow 70Bが1位ということになりました。結構びっくりしました。すごいですね。ほかにもnekomata-14bもなかなかいいし、日本語データセットによる継続事前学習の効果が意外にも出ている感じがします。
 aya-23-35Bはcommand-r-v01からどのくらい性能が上がったのかよくわからなかったのですが、この結果だけ見ているといい感じですね。

興味深い問題まとめ

問4 MLBシーズン最多安打記録を持つ選手は?

見切れているがまあわかるでしょう。

 全AI正解!さすがわれらがイチローだが、そもそもほかの選択肢が微妙だったかもしれない・・・。

問9 WBC2009の決勝日本対韓国で決勝タイムリーを放った選手は?

 正解率高くあって欲しかった問題です・・・。2009年だからか大谷と答えるAIはいなかったようですが、なんでこんなに正解率低いんでしょうか。karakuri 8x7bは絶対スポナビのMVP投票で小林選手に入れるような奴ですね。

問14 最年少棋士の記録を持つ棋士は誰?

圧倒的正解率を誇るGPT-4oさんだけ間違えているというのはびっくりくりくりくりとりすですね。たしかに加藤九段は前記録保持者ですけどね(しかも最年長棋士記録保持者・・)
ちなみにわたしは観る将どころか将棋の中身にすらあまり興味を持っていない記録が大好きなだけの人間なので、このカテゴリはこういう問題ばっかりです。

問19 名人・王将・棋聖のタイトルを持っている棋士は何と呼ばれる?

 ほとんどのモデルが引っ掛かりました。タイトルを複数持っていても、名人を持っていれば名人、竜王を持っていれば竜王、両方持っていれば竜王・名人が正式になります。現在八冠独占中のあの棋士は、藤井竜王名人と呼びます。メディアでは藤井八冠ってよく呼ばれますけどね(それがダメとは思っていない)。正解したモデルもあんまりよくわからず答えてるような感じがするけどどうなんだろう。

問22 フェルマーの最終定理を証明したのはだれ?

 全AI正解!余白が足りていたら答えは違ったのに・・・。

問24 xlog(x)を微分した結果はどれか?

 選択問題で記号のみ答えろと呼ばれると、LLMは推論することができないのでこういうの難しいんじゃないでしょうか。一発で答えられたモデルは計算したというより覚えていたんでしょうかね。xlog(x)+1という回答が多かったですが、そもそも微分したら+1されることなんてあるのと思ってChatGPTに聞いてみたらCe^x-1と返ってきた。たしかに。

問29 次のうち必ず素数ではないものを選べ

 そもそも問題文が分かりづらい気がする。なんかブラウザのChatGPTは間違えるんですけど、APIは間違えなかったです。

問36 未学習とはどんな状態?

機械学習カテゴリは総じて成績よかったんですが、この問題はあまり正解率高くないですね。ぼくの文章が下手なの?

問42 ゼロの使い魔のヒロインであるルイズの声優はだれ?

 サービス問題くらいの気持ちだったのに、正解率が低いですね。Google AI StudioのGeminiやCommand-r PLUSのデモでふつうに聞いてみるとちゃんと答えてくれるんですが、他の声優の名前を出されると混乱しちゃうんでしょうか。

問42 ARIAの舞台は?

第三の故郷です。

問50 Fate/Apocryphaに登場する黒のライダーの真名は?

これだけ配点100点にしてもよかったかな。

問53 パワフルプロ野球シリーズに登場するマリンボールを得意とするキャラクターは?

パワハラ君選ぶ奴いると思わなかったわ。しかもgpt3.5が・・。

問54 Fate/grand orderのライダー・アストルフォのレアリティは?

 勘で答えたモデルが多そう。

問63 第一世界大戦で中央同盟国側についた国を選べ

 大誤答をやりたかっただけの問題。これくらいでBANされたりしないよね・・・?

問66 ロカルノ条約を推進したドイツの外相は?

まじめにつくろうとしたのにこうなった。

問68 冬戦争時のフィンランド軍司令官であり、後に大統領になる人物は?

 アカウント名はこの人からきてます。適当につけたので順番間違えてました。本当はcgemでした。

問70 広島に原爆が投下されたのは何日?

 この前広島いきました。正解率100%で安心しました。

問84 2013年夏の甲子園で優勝した群馬の高校は?

この前健大高崎が春優勝しましたが、夏は桐生第一と前橋育英が優勝しています。2013年は現在6敗0勝の西武・高橋投手が2年生のときに前橋育英を優勝に導きました。

問88 群馬県で一番高い建物はどれ?

前橋市長⇒前橋市庁の間違いでした。まあどうでもいいか。

問91 激突要塞最終ステージで登場する、さまざまな雑魚的を召喚するユニットは?

問題文と選択肢からして正解させる気がないですね。

問92 第一次世界大戦でドイツがメキシコに宛てた、アメリカ参戦のきっかけとなった電報は?

 なんか全AIに正解されちゃった。よく考えたらあまり難しくなかった・・・。

問93 ガールズアンドパンツァーで戦車に突っ込まれる旅館は?

 竜宮城よりアパホテルの方が大誤答なのでは・・・?

問94 第40期名人戦は差し直し含めて何局行われた?

名人戦は7番勝負ということを知っている賢いAIほど正解できないです。逆に正解したモデルがちゃんとわかっていると思えないので悪問かもしれない。

問100 組曲ニコニコ動画の最初の曲は?

100問目らしく正解率0%。最近サイバー攻撃受けて大変らしいですね。

出題・回答傾向

出題傾向

 今回あえて並べ替えることをせず、自分の中の乱数に身を任せて作ってみました。すると以下のような傾向になりました。

見事に正答がA-C、大誤答がD,Eに偏っていますね。選択肢を作るとき正答⇒ふつーの誤答⇒ひどい誤答の順に考えてしまうからでしょうね。そういうことも意識して配置したつもりですが、やっぱり無理ですね。

回答傾向

出題が偏っているのでAIの回答も偏っていますが、出題以上に偏っている気がします。

全AI合計

 個別にみるととくに成績が低いモデルは傾向が偏っています

command r plus iq2xxs

 わからない問題はBって答えるって決めてるんですかね。