見出し画像

AI自滅!?生成AIがインターネットを崩壊させる可能性を指摘 ライス大学

生成AI(Generative AI)は、膨大なデータを用いて新たなテキスト、画像、動画を生成する技術であり、私たちの生活に多大な影響を与えています。しかし、この技術の進化には重大な問題が潜んでいます。ライス大学の研究によれば、生成AIが自己生成データで訓練を続けると、深刻な問題が発生する可能性があります。

AIのモデルを訓練するためのデータは非常に多く、現実のデータが枯渇しつつある現状で、合成データ(synthetic data)の利用が注目されています。合成データは実データよりも安価で供給が無限であり、プライバシーリスクも低減します。しかし、合成データでの訓練は「モデル自己食症」(Model Autophagy Disorder: MAD)と呼ばれる問題を引き起こす恐れがあります。

ライス大学の研究チームは、StyleGAN-2という生成モデルを用いて、合成データのみを使って連続的にモデルを訓練する実験を行いました。その結果、各世代を重ねるごとに生成される画像には格子状のアーティファクトが増え、品質が劣化することが確認されました。これは、データが自己生成されることで発生する「フィードバックループ」が原因であり、最終的にはモデルの「崩壊」に繋がるとされています。

この問題は画像生成モデルだけでなく、大規模言語モデル(LLM)にも同様に影響を与えます。インターネット上のデータが合成データで埋め尽くされることで、次世代のモデルも自己生成データに依存するようになり、質と多様性が低下します。

研究チームは、完全に合成データのみを使用するループ、実データを固定して合成データと組み合わせるループ、新しい実データを毎回追加するループの3種類のシナリオを検証しました。その結果、合成データだけを使用するループでは、データの質と多様性が急速に悪化し、実データの追加がない場合、モデルの出力は次第に読み取れないものとなりました。一方、実データを追加するループでは質が保たれますが、多様性の低下が見られました。

さらに、ユーザーが高品質なデータを選び取る「チェリーピッキング」の傾向も、合成データの質は保たれるものの、多様性が失われる結果を招きます。最悪のシナリオでは、インターネット全体のデータが質・多様性共に低下し、新たな生成AIモデルは「MAD」に陥る可能性があります。

この研究は、今後のAIモデルの訓練方法について重要な警鐘を鳴らしており、新鮮な実データの確保がAIの健全な発展に不可欠であることを示しています。生成AIが未来を拓く鍵であると同時に、慎重な取り扱いが求められる技術であることを再認識する必要があります。

詳細内容は、ライス大学が提供する元記事を参照してください。

【引用元】

https://news.rice.edu/news/2024/breaking-mad-generative-ai-could-break-internet

【読み上げ】
VOICEVOX 四国めたん/No.7

いいなと思ったら応援しよう!