FeloのAIモデルって結局どれを選んだらいいの？GPTsを使って評価してみた。

2024年11月4日 19:00

FeloのAIモデル切り替えとは？：AI検索サービス「Felo」では、好きなAIモデルを選択することができます。無料版ではGPT-4oのみですが、アップグレードすることで主要なAIモデルを自由に切り替え可能です。

そこで、今回はChatGPTの「GPTs」を使って、Feloで選べるモデルの中で、どのモデルが一番優れているのか点数をつけてみることにしました。
評価用GPTsの作り方や、採点方法の考え方を [プロンプト込み] で具体的に解説したあと、実際の点数をランキング形式で発表していきます。

簡単な用語解説からはじめますので、必要ない方は目次で飛ばしてお読みください。😎（*高度な評価手法は取り扱いません）

はじめに: AIモデルとAIサービスの違い

AIモデル：AIモデルは、AIサービスの根幹である「脳部分」です。例えば、ChatGPTは「GPT-4o」モデルで動いており、Claudeは「Claude 3.5」モデルで動いています。

AIサービス：一方、AIサービスは、この「脳部分」をユーザーが利用できる形にした「顔」のようなものです。AIモデル（脳部分）だけでは話すことができないので、チャットで会話できるようにしたアプリ（ChatGPTなど）をAIサービスといいます。Feloは、日本発のAI検索に特化したAIサービスで、最近人気が広がっています。

・用語解説

GPTsとは？
GPTsは、ChatGPTをカスタマイズできる機能です。特定の話題に強いオリジナルのAIを自分で設定・調整し、独自の応答スタイルを持たせることが可能です。カスタマイズしたGPTsは公開したり、特定の目的で使ったりすることもできます。

・このNoteで学べること

AIモデルを評価するための基本的な考え方がわかる
どのモデルがどの状況に適しているかを比較するための基準やポイントを学びます。
実際に使ったプロンプトがわかる
評価に使用した具体的な質問（プロンプト）を例として紹介します。
どのモデルを選べばいいかがわかる
それぞれのモデルの特徴を理解し、自分の用途に合った最適なモデルの選び方がわかります。

ステップ1: 「ゴールを明確に」｜「誰のために、何のために」を伝える

AIサービスを使いこなすためには、良いプロンプトを書くことが重要です。そして良いプロンプトを書くために、最も重要なのが2つ。

・ゴールを明確にすること
・誰のために、何のためにやるのか伝えること

まずはここからやっていきましょう。コピペできるように実際に使ったプロンプトも記載していきます。

FeloというAIツールで、利用する言語モデルを選択できるのですが、
ユーザーがどのモデルを選んだほうが良いか明確にするために、性能をテストしたいと考えています。

差が明確に現れるような複数の入力要素と思考プロセスが必要で、
最新情報にアクセスしないと回答ができないような課題と、

その課題で言語モデルの性能をテストするためのプロンプトを作成して

3つの詳細な課題が作成されました。詳細な出力結果は長いので、Googleドキュメントにまとめておきます。
■課題内容

ステップ2: 評価方法と基準を決める

ステップ1で課題を作成したら、その課題をどう使ってどのように採点するか厳密に定義させましょう。

厳密な評価が必要です。評価はあなたに任せますが、
正確な評価のためにUserが提供するべき情報と手順をリストアップしてください。

また、評価基準をあらかじめ厳密に定義してください。
GPT-4oの回答を基準として、100点満点方式とします。

すると、評価するための手順と採点基準が作成されました。
■評価手順と採点基準

Userが、課題内容をFeloに入力して、その結果をGPTsに提供することで、採点基準に基づいた点数が出力される❗️という流れです。

ステップ3: GPTs用のInstractionsを作成する

ここまできたらもう一息です。ChatGPTのGPTs用のInstractionsをChatGPT自身に生成してもらいましょう。

では実際に私がFeloでモデルを切り替えながら、モデル名を伏せた状態で、
ドキュメント形式であなたにファイルを提供して採点してもらうとします。

そのために、あなたがUserからファイルを提供してもらうだけで、
ここまで説明した採点プロセスを厳密に実行するためのGPTs（カスタムGPT）
を作成したいので、シンプルなInstractionsを作成してください。

Knoeledgeに「課題内容」「評価手順と採点基準」「GPT-4oの回答」をアップロードするので、
参照してから採点を開始してください。

GPTsのInstractionsについてはOpenAI社の公式情報から入手するように。

注意点として、ChatGPTはGPTsのことを知らない（データが古い）ので、ウェブ検索させて最新情報を取得させてから回答させるようにしてください。（*Feloならそんなことしなくてもいいのですが…）

ステップ4: GPTsを完成させる

完成したInstractionsを入力、Knowledgeに「課題内容」｜「評価手順と採点基準」｜「GPT-4oの回答」をアップロードして完成です。🎉✨

GPTsの詳細な作り方は、こちらの記事が非常に参考になりますので、ぜひご覧ください。

そして、完成したGPTsがこちら❗️

Feloで言語モデルを切り替えながら回答を生成していきます。
・Claude 3.5 Sonnetの回答
・Gemini 1.5 Proの回答
・Llama 3.1 70Bの回答

Feloモデル評価アシスタント — *このGPTsに回答をアップロードして採点します。

■採点結果と順位

結論、「どれも大きな差がない」という結果になってしまいました。😊💦
AIの出力結果はゆらぎがあるので、複数回試した結果、毎回順位が変動するくらい接戦だったので、現状は好みで選んで問題ないと思います。

~~3つとも文章課題、それを定性的に評価したので、ゆらぎが大きかったのも要因~~

ちなみに、3つの課題に対する回答をベースにした、個人的な評価だと
[Llama 3.1 70B] ≧ [Claude 3.5 Sonnet] ＞ [Gemini 1.5 Pro] ≧ [GPT-4o]

FeloのAIモデルは好みで決めてよさそう — *[Claude 3.5 Sonnet] はプログラミングに強いとの情報あり

今回は、高度な言語モデルの評価方法ではなく、GPTsの使い方も兼ねたご紹介となりました。

今回のNoteを参考に、基準を明確にして具体的かつ複雑なタスクに挑戦させることで、自分に向いているAIサービスを出会うことができます。

また、Feloを使えば複数の最新AIモデルに触れることができるので、ChatGPTやClaude、Geiminiを個別に有料契約するよりコストメリットが大きいことも重要なポイントです。😉✨

M2AI｜生成AI活用支援
https://x.com/M2AI_jp

この記事が参加している募集

#わたしの勉強法

with 日本経済新聞

4,433件

この記事が気に入ったらサポートをしてみませんか？