AI学習のためのデータが枯渇？対処法はあるのか？（Gigazineより）

トーマス・レッド（高学歴発達障害・転職王・アマチュア経済アナリスト・ITコンサルタント）

2024年12月17日 08:54

AIモデルの開発には学習資料となるデータセットが必要不可欠ですが、すでに大規模なモデルはアクセスできるデータのほとんどを食い尽くしており、2028年までにデータを使い果たしてしまう可能性が指摘されています。AIとデータセットの現状について、学術雑誌のNatureがまとめています。

The AI revolution is running out of data. What can researchers do?
https://www.nature.com/articles/d41586-024-03990-2

Synthetic data has its limits — why human-sourced data can help prevent AI model collapse | VentureBeat
https://venturebeat.com/ai/synthetic-data-has-its-limits-why-human-sourced-data-can-help-prevent-ai-model-collapse/

OpenAI cofounder Ilya Sutskever predicts the end of AI pre-training - The Verge
https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training

Gigazine

以前にも述べたが、AIの能力は「学習量」と「推論」で決まる。大学受験の世界史で例えると、世界史の膨大な知識を蓄積・暗記するのが「学習量」で、その後、東大や一橋大の論述問題を考えるのが「推論」となる。ChatGPTの4Oよりも、o1モデルが優れているのは「推論」のほうだ。学習量は別に違いはない。

そして、学習量をこれ以上増やせないところまで来てしまったらしい。Gigazineでも言及されているが、「汎用AI」を諦めるのが一つの手だと考える。「物理」「化学」「数学」「経済学」など、特定目的に特化したAIを作成するのだ。そうすればおそらく、推論の能力が向上するのではないかと考えている。現状、各社のAIは推論は汎用的なロジックとなっており、各種学問に最適化されているわけではないのだ。

そして、スーパーコンピューターや量子コンピューターとの連携も考えられる。スーパーコンピューターは、大規模なデータから計算するのが得意である。AIとは得意分野が異なる。宇宙や創薬の大規模データ分析は、AIとスーパーコンピューターを組み合わせるとより、効果を発揮できるだろう。

そうなってくると、人間の仕事は「何をコンピューターにインプットするか」「アウトプットをどのように評価するのか」になってきそうだ。ただ、自分で考えない、試行錯誤しない研究者や技術者ばかりになって、むしろAIが無かった時代を経験している中高年のほうが賢いという逆転現象も起こるかもしれない・・・。若手研究者や若手エンジニアは、AIを使わずに自力で探求・試行錯誤して、30歳ごろからAIを使うほうが良いのかもしれない。

いいなと思ったら応援しよう！

よろしければ、チップをお願い致します。いただいたチップは、よりよい社会にするための研究活動に使わせていただきます。 ※今は何をするのかは秘密

この記事が参加している募集

#AIとやってみた

47,519件