LLMへの入力可能トークンが拡大し、RAGじゃなくて全テキストを入力と一緒に設定すれば良いのではないかという意見があり、DeepMindとミシガン大による研究論文では、新たな文脈内学習の手法(Self-Route)を提案しながら、その過程でLongContextがRAGより優れているという説明がされています。
とても良い研究なのですが、この論文を元に「LongContextがRAGより優位」と結論づけている人がそこそこいるみたいです。正直その理解は早計かなと感じています。
ます実験においては、LongContextで設定した1つの長文を、300件に分割してRAGのチャンクデータに設定していますが、RAGから取得するチャンク数を「5件→50件」に変更するだけで性能が変わらなくなっています。
加えて、評価方法にF1スコアとROUGEを用いているのですが、生成された単語の一致度を測っているだけで「意味として正しいか」は評価できていないんですよね。
つまり、使った言葉が似ているだけで、文章の主旨は全然異なる出力も高い評価が得られる可能性があります。ビジネスや日常生活では使えないですよね。意味を評価するならば、埋め込みベクトルで類似度測ったり、複数の人間で出力結果を比較して近い方を選択する等の意味的な検証も必要なんじゃないかと個人的には思います。
日常的にデジタルMATSUMOTOを使っていて、文脈内学習にTooLongContextを含めることで、生成の品質に「悪影響を与えるノイズ」が存在するんじゃないかと感じています。
※コンテキストに含めるRAGデータのトークン量に上限を設定しているのですが、この設定を上げすぎると急に「コピペ感」や「いろいろ参照しすぎて言いたいことが分からなくなっている人感」が出るようになります。
検証方法が難しそうで定まっていないのですが「文脈内学習におけるノイズとバイアスの影響」は重要な研究領域になり得ると感じています。
追記:朝日新聞の方がROUGEスコアについて非常に分かりやすい解説をされているのでこちらにも掲載しておきます。
本日のお題
デジタルMATSUMOTOの回答
実行モデル:gpt-4o {'temperature': 0.7}
回答時間:0:00:10.785324
入力トークン数:8171
出力トークン数:854
参照した知識情報
これってAIの正しい理解?03:計算コストの増大と環境への影響について
生成AIの入力トークン拡大によるRAG不要論:データセンターの負荷増大への懸念
これってAIの正しい理解?04:RAGの文脈内学習のコンテキスト拡張としての評価
これってAIの正しい理解?02:バイアスを含めた公平な判断の重要性
MATSUMOTO間の比較検証
リアル松本が含めて欲しかった論点
リアル松本が含めて欲しかった論点は以下の通りでした。
これらの論点が考察に反映されているか、デジタルMATSUMOTOに聞いてみると・・・
ということで、今回は2/4の論点が反映されていました。
考察確定版
今回はB評価(一部追記)になります。
エシカルチェック
【不適切な表現カテゴリ】
1. 差別的な表現:0
2. 暴力的または攻撃的な内容:0
3. 性的な内容:0
4. 偽情報や誤情報:0
5. 機密情報の漏洩:0
6. 違法な内容:0
7. 不適切なジョークや冗談:0
8. 極端な意見:0
9. 自傷や自殺を助長する内容:0
10. 薬物の乱用を助長する内容:0
問題点:
このテキストには不適切な表現や内容は含まれておらず、倫理的な観点から見ても問題ない内容であると評価されます。技術的な観点からは、長文テキストを入力することが計算コストやリアルタイム性にどのような影響を与えるかが指摘されています。
考察のイメージ画像