LAION-5Bの開発元であるLAIONがデータセットからCSAMを削除した「Re-LAION-5B」を新たに発表しました
「LAION-5B」は非常に大規模なデータセットであり、その中から2000件の児童性的虐待コンテンツ(CSAM)が見つかったという報告があります。これを受けて、開発元であるLAIONは、これらのリンクを削除した「Re-LAION-5B」という新しいバージョンをリリースしました。
この問題についての説明ですが、まず重要な点として、2000件という数は確かに懸念されるべきものであり、CSAMが含まれていたことは非常に深刻な問題です。しかし、LAION-5Bのデータセット全体の規模は数十億件のデータポイントに及びます。このため、CSAMの割合は極めて小さく、影響は限定的です。
また、「Re-LAION-5B」では、これらのコンテンツが削除され、さらに徹底的なチェックが行われたことで、データセットの安全性が向上しています。通常、このようなデータセットから生成されるコンテンツがCSAMに関連するリスクは低く、特に適切なフィルタリングやモデレーションが施された場合、そのリスクはさらに減少します。
要するに、今回の措置により問題は解決され、通常の使用において影響はほとんどないと考えられます。この問題に対処したことで、今後はより安全にデータセットが活用されることが期待されています。
この記事が気に入ったらサポートをしてみませんか?