以下の記事が面白かったので、簡単にまとめました。
1. Cohere Prompt Tuner
「Cohere Prompt Tuner」は、「Cohere Dashboard」で利用できるプロンプト最適化ツールです。「PROmpting」(OPRO) にヒントを得たツールで、カスタマイズ可能な最適化と評価のループを使用して、プロンプトを最適化します。
2. モデル機能の強化
一般的な企業LLMワークフローでは、AIエンジニアはプロンプトのエンジニアリングに約20~30%の時間を費やしています。LLMの確率的性質により、完璧なプロンプトを作成することは、専門家にとっても困難です。プロンプトを改良し、プロンプトが正しく動作し、最近のデータ例や個別のデータ例に関連するバイアスがないことを確認するには、多くの場合、複数回のテストと評価が必要です。
「Prompt Tuner」を使用すると、より堅牢なワークフローを実現できます。このツールは、プロンプトエンジニアリングの手動部分を自動化するだけでなく、従来のプロンプトエンジニアリングでは実現が難しいモデル機能も実現できます。
Cohereの社内評価では、「Prompt Tuner」は 94% のユースケースでプロンプトの最適化に成功しました。また、新しいモデルへの移行や新しいユースケースへの拡張を容易にする上でも有益であることが証明され、プロンプトエンジニアリングに費やす時間をさらに40%増やすことができます。「Prompt Tuner」で最適化すると、開発プロセスが合理化され、全体的な効率が向上します。
下のグラフに示すように、「Prompt Tuner」はトラブルシューティング支援のQ&Aプロンプトを大幅に改善し、1回の実行で10回の反復を経て評価スコアを72%から95%に向上させました。
3. Cohere Prompt Tuner の使い方
「Prompt Tuner」の使用は、体系的かつ反復的なプロセスです。開始するには、次の手順に従います。
内部的には、成功基準が定義され、ユーザーがプロンプトの最適化の実行を開始した後、「Prompt Tuner」は次の手順を実行します。
下図で実際の手順を確認してください。
4. プロンプトチューニングによる品質向上
要約、顧客サポート、コード生成など、41の企業ユース ケースにわたって 「Prompt Tuner」のテストを実施しました。ユースケースごとに、そのタスクの成功を定義する一連の決定論的かつ定性的な評価基準を定義しました。
Cohere社内評価では、平均11.5%の改善、中央値 7.7% の改善が見られました。特に、自然言語から SQLおよびエンティティ抽出のユースケースで大幅な改善が見られました。SQLプロンプトの場合、平均プロンプトスコアは、初期スコアの39%から最適化スコアの100%に向上しました。エンティティ抽出の場合、平均プロンプトスコアは、初期スコアの73%から最適化スコアの93%に向上しました。
エンティティ抽出の例は、下の表で確認できます。左側に初期プロンプト、右側に最適化プロンプトが表示されています。元のプロンプトには例がありませんでしたが、最適化されたプロンプトでは、要求されたISO形式に従ってテンプレートが入力され、モデルが理解して実際の値に置き換えるためのマークされたプレースホルダーが含まれており、人間にとってのプロンプトの全体的な読みやすさも向上しています。
・最初のプロンプト (日本語訳)
・最適化されたプロンプト (日本語訳)
5. はじめる
「Cohere Prompt Tuner」は、「Cohere Dashboard」でベータ版として利用できます。プロンプトを最適化する方法の詳細については、 ドキュメントを参照してください。