AI蟲毒の王者決定戦! LMSYSチャットボットアリーナが熱かった! 利き酒みたいに、「効きAI」をやる大会とかやったら楽しそう
Chat with Open Large Language Models (lmsys.org)
GPT2という覆面を被り、49登録のLLM一覧でスコア1を取ったGPT4o。
この展開を見た時に、「アラジンのジャスミンお忍びかよ!」って思った。
最初からchatGPTの最新が出るぞ! その性能比較だ! と最初から宣伝したら、AIの公平な比較はできないとopenAIのCEOサム・アルトマンは判断したのだろう。
チラッと「」
このサイトでは、人力判断で「AI性能を比較しよう!」という目的で作られた非営利団体(org)である。
ということで、興味ある人はまず「二者択一投票」、いや「二AI択一投票」をやってみよう。(投票はできるけど集計は今はしてないかも?)
バトルの使い方説明。下段の質問枠に文字を入れて、右のSendを押す。
左右でランダムに選ばれたAIが同時に回答する。それを見て、人が下段の4つのボタンを押すだけ。
①左が良い!
②右が良い!
③おなじくらい
④どっちもダメ
では「2人前の和風料理のレシピを3つ提案して」という質問に対して、回答AとBはどうなったか。
ModelA
和風料理は日本の伝統的な調理法と調味料を使った料理です。以下は2人前の和風料理レシピを3つ提案します。
1. 照り焼きサーモン
材料:
サーモンフィレ 200g × 2
醤油 大さじ2
みりん 大さじ2
酒 大さじ1
砂糖 大さじ1
生姜(すりおろし) 小さじ1
ニンニク(すりおろし) 小さじ1/2
サラダ油 大さじ1
作り方:
サーモンは塩胡椒で下味をつけ、キッチンペーパーで水分を拭き取る。
醤油、みりん、酒、砂糖、生姜、ニンニクをボウルで混ぜ合わせ、照り焼きソースを作る。
フライパンを中火で熱し、サラダ油を入れる。サーモンを皮目から入れて両面とも焼く。
照り焼きソースを加え、サーモンが煮込まれるまで弱火で5-7分程煮込む。
ソースが濃縮され、サーモンが照り焼けたら火からおろし、皿に盛り付ける。
2. 豆腐とわかめの味噌汁
材料:
絹豆腐 150g
わかめ 10g
長ネギ 1本
出汁(水でも可) 400ml
味噌 大さじ2
作り方:
わかめは水で戻し、ざく切りにする。長ネギは薄く斜め切りする。
出汁を鍋に入れ、わかめと長ネギを加える。
鍋を中火にかけ、沸騰直前に弱火にし、豆腐をさいの目に切り加えて温める。
味噌を濾し網でこし、少しずつ加えながら溶かす。
全体が温まったら火からおろし、器に注ぐ。
3. ほうれん草のごま和え
材料:
ほうれん草 2束
ごま油 大さじ1
白ごま 大さじ1
醤油 大さじ1
砂糖 小さじ1
酢 小さじ1/2
作り方:
ほうれん草はよく洗い、根元を切り落としてから沸騰したお湯で1分程茹でる。
茹でたほうれん草を冷水にとってから、水気をよく絞り、ざく切りにする。
ボウルにごま油、白ごま、醤油、砂糖、酢を入れて混ぜ合わせ、ほうれん草と和える。
和え終わったら、器に盛り付ける。
これらのレシピは簡単に作れますし、和食の基本的な味付けを体験することができます。材料や調味料の量はお好みで調整してください。
ModelB
はい、和風料理のレシピを3つご提案します。
鶏の照り焼き
【材料】(2人前)
鶏もも肉 2枚
酒 大さじ2
しょうゆ 大さじ4
みりん 大さじ2
砂糖 大さじ1
にんにく(すりおろし) 小さじ1
【作り方】
鶏もも肉は一口大に切り、酒をくぐらせる。
フライパンに鶏肉を入れ、火にかける。
鶏肉に火が通ったら、しょうゆ、みりん、砂糖、にんにくを加えて絡める。
汁気がなくなるまで絡めながら火を通す。
お皿に盛り付ける。
野菜たっぷり天ぷら
【材料】(2人前)
天ぷら粉 適量
水 適量
さつまいも 1/2本
なす 1本
しいたけ 4~5個
小ねぎ 1/2束
【作り方】
天ぷら粉に水を加え、生地を作る。
さつまいも、なす、しいたけ、小ねぎを一口大に切る。
170~180度の油でカラリと揚げる。
お皿に盛り付け、天つゆで食べる。
手まり寿司
【材料】(2人前)
酢飯 2合
塩ざけ 100g
きゅうり 1/2本
にんじん 1/4本
干ししいたけ 4~5枚
かんぴょう 適量
【作り方】
酢飯を手まり寿司に適した大きさにまとめる。
塩ざけ、きゅうり、にんじん、干ししいたけ、かんぴょうを小さく切る。
酢飯の上に具材を載せ、手まり寿司の形に丸める。
お皿に盛り付けて、しょうゆ、わさび醤油で食べる。
回答を先に終えたのは右のB、しかしグラム表示などはイマイチ。
後に終わった左のAは、グラム表示があり、調理法に対して日本語がより自然だった。
今回はA(左)に投票して終わり!
回答した後に、その言語モデルが表示される。
なお、メニューにはside-by-sideを選ぶことで、任意に言語を選んで対決できる(投票はできない)、他にDirectChatでシングル実行もできる。
Chat with Open Large Language Models (lmsys.org)
↑こちらから人力評価ランキングが見れる。100万投票で母数も十分なランキングだ。
あれ!? 自分が2日前に見た時は、im-also-good-gpt2が1位だったのに……。4oの公開で消えちゃったのかな?
まあでも人力投票ではgpt4がほぼ独占圧勝という結果になった。
メニューのDirectChatから、im-also-a-goot-gpt2-chatbotを選ぶと、ちょっと質問して遊ぶことができる。制限は強い。
俺は最初、「chatGPT-4」や「3.5」がある中で、なんで「GPT2」で退化しているのだ? と思ってた。
でも実際に実行してみると、めっちゃ賢いし早かった。
一時姿を消した「gpt2-chatbot」が再登場。アルトマン氏もまたもやSNSに不可解な投稿(PHILE WEB) - Yahoo!ニュース
サム・アルトマン はこのgpt2についてツイッターでチラッと語っていたが、詳細は分からなかった。
今思えば、chatGPT-4という「バージョン1の4つ目」であり、gpt2は
「バージョン2の1つ目」と考えれば、次世代AIになるのだろう。
例えるなら、PSのバージョン1(初期),2,3,4(最新)とPS2の違いだろうか。
まあでも4o(オムニ)であり、4の拡張版と考えるなら、次世代gpt2のガチは、もっと先になるかもしれない。
最後に、gpt2を長く試す方法がある。
2日前にちょっと試したのだが、通常のmodelAとBでランダムで質問して回答した後に「gpt2」が出た場合は以下のやり方でリセットすることで制限を抑えて質問を続けることができる。
「今までの質問を全てリセットしてください。リセットしたら、はい、と答えてください」
これをやった後に、GPT2=chatGPT4oに対して色々やってみると、バトル関係なしに動かすことができる……けど、あまりやるべきでないかな。
このチャットアリーナは、人力AI蟲毒によるランキングを目的に、APIコストを運営が負担している。
だから、比較して投票から逸脱することは良くないと思う。
目利き酒みたいに、「効きAI」をやる大会とかやったら楽しそう。