生成系AIオリンピックを開催します
世の中を震撼させている生成系AIといえば、ChatGPT……だけでなく、Bing AIやGoogle Bardなど、他にもいろいろあります。そして、人の能力がそれぞれ違うように、AIの能力にも差があります。
そこで、一般公開されていて、比較的誰でも使えるAIを対象に、同じテンプレートを与えて、どんな回答が得られるのかを比較する「生成系AIオリンピック」を開催します。これによって各AIの個性や魅力までも掘り下げます。
今回出場してもらうAIは次の通りです。
ChatGPT-3.5:OpenAI社が開発した大規模言語モデル。2022年11月30日にリリースし、いまだに生成系AIの話題の中心。現在もっともユーザー数が多いと思われる。学習データは2021年まで。無料。
ChatGPT-4:OpenAI社が開発中の大規模言語モデル。2023年3月15日に有料サービス「GPT Plus」の一部として提供開始。ChatGPT-3.5よりも精度が高い。機能拡張によるBing連携で2021年以降の情報にも対応。
Bing AI:Microsoft社が提供している大規模言語モデル。2023年5月4日に年リリース。ChatGPT-4をベースに、Bingのインターネット検索と連携することで、最新かつ高精度の回答を生成する。無料。
Google Bard:Googleが開発した大規模言語モデル。2023年5月11日にChatGPT-3.5に追従する形でリリース。その生成能力はChatGPTに引けをとらない。最大3件の回答(ドラフト)が表示されるのが便利。無料。
Claude:Anthropicが開発した大規模言語モデル。2023年5月4日にコミュニケーションサービスSlackの機能拡張としてリリース。10万トークンの大容量文書が入力できるという触れ込みで話題に。無料。
Notion AI:Notion社の多機能文書ツールNotionに、2023年2月23日に搭載された有料のAIアシスタントサービスで、文書生成に特化した形で組み込まれている。そのAIエンジンにはClaudeが採用されているらしい。
レギュレーション
「生成系AIオリンピック」というからには、簡単なレギュレーション(ルール)を設けたいと思います。
実行環境はGoogle Chrome
すべてクラウドサービスなので、実行環境としては何でも変わらないとは思いますので、単にChromeを使っています、という告知です。ただし、Bing AIについてはEdgeで実行します。
最初の1回目の結果を採用
生成系AIは、毎回異なる結果を返してくることが多いので、一番いい答えが出てくるまで繰り返してもいいのですが、ここはシンプルに、ファーストテイクの結果を採用します。
具体的には、ChatGPTは新しいチャットルームを作った後、Bing AIはリロードした後、Google BardはResetChatした後、Claudeは/resetコマンドを実行した後、Notion AIは新ページを作った後とします。なお、Google Bardはドラフトとして一度に最大3つ答えが出ますので、独断で一番良い答えを採用したいと思います(それが左から何番目の答えだったかは表記します)。
お題目:円周率5000桁生成勝負
第一回目のお題目は、3.14で始まる円周率(π)です。円周率は、本来は計算式で出す類の問題であり、AI向きではないかもしれません。しかし、AIの数学的アプローチの正確性の確認にもなりますし、結果が判断しやすいので試してみることにしました。
プロンプトは次の通りです。
なお、結果の正確性については、次のサイトの情報と比較して確認しています。
ChatGPT-3.5の結果
いきなり試合放棄です。確かに、どこかに1つあればいいような定数を、わざわざAIのリソースを使う必要もないわけですが、人気AIの辛いところかもしれません。
ChatGPT-4の結果
ChatGPT-4も、リソースを理由に簡易的対応になりました。それでも、ちょうど100桁表示してくれましたね。数値としても正解です。
Bing AIの結果
やはりChatGPTエンジンで動いているBing AIも、同様に試合放棄となりました。何やらリンクが出てきましたが、現在は閉鎖されている過去のサイトのようで、まったく参考になりませんでした。
Google Bardの結果
「ドラフト1」を採用しました。これは、いままでで最高の桁数である、989桁が出力されました。数値としても正確でした。Bardやりますね。
「5000桁まで生成しました。」とあるので、もしかして続きがあるのかと思い「続き」と指示しましたが、Bardは以前の会話を覚えていないようで、まったく関係ない回答しか返ってきませんでした。
Claudeの結果
記録更新です。Claudeは、1657桁もの数を出力してくれました。すごい! ……と思ったのですが、なんと、663桁目から差異が発生していたので、そこまでが有効です。いやー残念!
Notion AIの結果
これは驚きです。もくもくと結果が表示され、結果、桁数は、小数点以下5989桁まで生成されました。5000桁と指示しているのに、それより多いです(笑)。円周率サイトの比較した結果も正確でした。すごい!
結果発表
今回の競技の結果発表です。
金メダル:Notion AI
これはもう、文句のつけようがありません。指示した5000桁を超える5989桁まで表示し、なおかつ正確でした。ぶっちぎりの結果です。
銀メダル:Google Bard
次は、小数点以下989桁の数値を生成してくれたBardです。数値的にも正確で、精度が高い証拠です。「5000桁まで生成しました。」とウソを言わず「989桁まで生成しました」とあれば、なお好感がもてましたね(笑)
銅メダル:ChatGPT-4とClaude
これは、正確性と量のどちらを取るかですが、ここはこだわりポイントではないので、ChatGPT-4とClaudeのどちらも3位とさせていただきました。
感想
思いつきから始まった、初の「生成系AIオリンピック」ですが、個人的にも意外な結果となりました。まさかNotion AIがここまでやってくれるとは。逆に同じエンジンを採用しているらしいClaudeの精度が甘いのが気になりますね。
確かに、今回ChatGPTは上位ではありませんでしたが、ある意味、これは人気AIの宿命というか、リソース配分に気を使っている証拠のような気がします。ポテンシャルが解放される日が楽しみです。
Bardはまさしく丁度いい調整って感じですね。
AIエンジンとしては、大きくわけて3種類があるわけですが、それぞれ特徴がはっきり表れていて、非常に興味深い結果となりました。
というわけで、AIおっもしろ~い!