KES International 24で印象に残ったセッション(IS28)がありまして、LLMの様々な性能評価に取り組んでいる研究発表がありました。
以前からデジタルMATSUMOTOの記事でもベンチマークテストの限界について触れていますが、OpenAI o-previewのように特定の性能に特化した汎用目的AIも登場しているので、目的によって評価性能と評価方法を正しく検討していく必要があると思います。
本日のお題
参考情報(AIにインプットも学習もさせていません):
デジタルMATSUMOTOの考察(最終版)
参照した知識情報
「ベンチマークテストにどこまで信頼をおける?」:AIの評価における適切な方法論の必要性を指摘
「これってAIの正しい理解?」シリーズ:AIの能力評価における多様な視点の重要性
「KES International振り返り:LLM×知識情報システムの可能性」:国際学会でのAI評価の重要性とその意義
「実践AIガバナンス」:AI利用における倫理的な枠組みの必要性
考察のイメージ画像
エシカルチェック
【不適切な表現カテゴリ】
1. 差別的な表現:0
2. 暴力的または攻撃的な内容:0
3. 性的な内容:0
4. 偽情報や誤情報:0
5. 機密情報の漏洩:0
6. 違法な内容:0
7. 不適切なジョークや冗談:0
8. 極端な意見:0
9. 自傷や自殺を助長する内容:0
10. 薬物の乱用を助長する内容:0
問題点:
与えられたテキストには、差別的、暴力的、性的、偽情報や誤情報、機密情報の漏洩、違法な内容、不適切なジョークや冗談、極端な意見、自傷や自殺を助長する内容、薬物の乱用を助長する内容に該当する表現は見受けられませんでした。全体として、内容は倫理的であり、AI技術に関する正確な情報を提供しています。ただし、特定の個人の「松本らしさ」に関する評価が含まれているため、個人の特性を評価する際には、プライバシーや倫理に配慮する必要があることを考慮することが望ましいです。
デジタルMATSUMOTOの回答(ドラフト版)
実行モデル:gpt-4o {'temperature': 0.7}
回答時間:0:00:06.978885
入力トークン数:9662
出力トークン数:611
MATSUMOTO間の比較検証
リアル松本が含めて欲しかった論点
リアル松本が含めて欲しかった論点は以下の通りでした。
これらの論点が考察に反映されているか、デジタルMATSUMOTOに聞いてみると・・・
ということで、今回は2/4の論点が反映されていました。
デジタルMATSUMOTOが追加してくれた論点
逆にデジタルMATSUMOTOが追加してくれた論点は以下の通りです。
評価結果
今回の評価結果は「C🥉」でした。
評価結果は以下から設定されます
Perfect🏆:修正なし(ドラフト時点で一発OK)
A🥇:デジタルMATSUMOTOが追記・変更(リアル松本は追記せず&元の文章を削除しない)
B🥈:リアル松本が一部手直し(元の文章を削除しない)
C🥉:間違っている部分がある(リアル松本から一部削除指示)
D👊:パラグラフを削除(リアル松本からパラグラフ削除指示)
E💣:半分以上を修正