Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。
論文タイプ:本研究は研究論文であり、掲載誌は明示されていません。
本研究の背景と関連研究:最近、大規模言語モデル(LLMs)が登場し、さまざまなタスクで驚異的なパフォーマンスを示しています。これにより、研究での使用が大幅に増加するだけでなく、最大かつ最も強力なモデルを追求するために多くの企業が参入しています。しかし、多くの人気のあるLLMsはAPIアクセスの背後にロックされており、その詳細は不明です。特に、トレーニングデータに関する情報の欠如は、LLMsのパフォーマンス評価の信頼性について重要な問題を提起しています。これらのモデルが学習するデータは、通常、ウェブからドキュメントをスクレイピングして自動的に収集されますが、NLPベンチマークからのトレーニング、検証、そして最も重要なテストセットが含まれている場合があります。そのため、研究者や利害関係者は、後で彼らがトレーニングされたデータと同じデータでLLMsを評価する可能性があります。この現象は、データの汚染として知られており、商用LLMsの一般的な使用では問題にならないかもしれませんが、研究原則への遵守が義務付けられている場合には深刻な問題となります。
本研究の目的とその重要性:本研究の目的は、OpenAIのGPT-3.5およびGPT-4を使用した研究のデータ汚染の文脈での初の体系的な分析を行うことです。具体的には、255の論文を分析し、OpenAIのデータ使用ポリシーを考慮しながら、モデルのリリース後の最初の年にこれらのモデルに漏洩したデータの量を詳細に文書化します。また、レビューされた論文で浮かび上がっているいくつかの評価の不正行為(公平でないベースライン比較や再現性の問題など)も文書化します。本研究の重要性は、LLMsのパフォーマンス評価の信頼性を高めるために、データ汚染と評価の不正行為に関する問題を明らかにすることにあります。
本研究で用いた材料やデータの詳細:本研究では、OpenAIのGPT-3.5およびGPT-4を使用した255の論文を分析しました。具体的な材料やデータの詳細については記載されていませんが、OpenAIのデータ使用ポリシーを考慮してデータの漏洩量を詳細に文書化しています。
本研究で何をどのように、どこまで明らかにした?:本研究では、OpenAIのGPT-3.5およびGPT-4を使用した研究のデータ汚染の文脈での初の体系的な分析を行いました。具体的には、255の論文を分析し、モデルのリリース後の最初の年にこれらのモデルに漏洩したデータの量を詳細に文書化しました。また、レビューされた論文で浮かび上がっている評価の不正行為も文書化しました。
本研究の有効性はどのように検証した?:本研究では、OpenAIのGPT-3.5およびGPT-4を使用した研究のデータ汚染の文脈での初の体系的な分析を行い、データの漏洩量や評価の不正行為などを詳細に文書化しました。これにより、LLMsのパフォーマンス評価の信頼性に関する問題を明らかにし、研究者や利害関係者がより適切な評価を行うための基盤を提供しました。
効果的なキーワードの提案: