Air Street Capital社のState Of AI Report 2023を読む(2)
Air Street Capital社が2023年10月に発表したレポートの内容を1ページずつ読み込んできます。
今日はその第2回。
オープンソースをベースとしたLLMからクローズドソース型のLLMに業界全体が推移してます。いくつか理由はあって、次のような事がその要因、と言われてます。
LLMの維持、特に継続的なトレーニングコストは非常にコストのかかる演算が必要で、その費用をカバーするためにLLMをマネタイズできる事業に変換する必要性が高くなるため、クローズド型の方が独自事業を生み出しやすい。
オープンソースはカスタマイズできる、という基本的な利点はあるが、なぜか規模が小さいモデルが多く、そのため精度がオープンソース型と比較して低いのが現状。クローズドソース型の方が特定企業が多大なる出資を受けて、大規模なトレーニングを施すケースが主流になってる。
クローズドソースに関しては、合わせてデータの精度、安全性、などが課題として挙げられてます。オープンであれば、コミュニティがこの辺のリスクを解決しやすいモデルがありますが、クローズドだとその開発元企業が品質の責任を持つことになり、必ずしもそれがベストだとは言いにくいかも。
クローズド型のLLM開発ベンダーは、この辺の懸念も含めて、どのように開発しているのか、ハルシネーション等の課題に対してどのように取り組んでるのかをレポートとして発行してます。その例として次のようなものがアクセス可能です。
OpenAI社:
GPT-4に関するテクニカルレポートが発行
あまり有用なデータが公開されていない、というのがAI研究者間の意見。AIが研究の世界から商用の世界にシフトしてしまった、という懸念を示す意見が多い。
モデルサイズを含めたアーキテクチャの解説、ハードゥエア仕様、トレーニング規模や手法、データセットの構造、等の情報が開示されていない。
Google社
PaLM2に関するレポート
モデルサイズやアーキテクチャに関するデータは開示しない、と明記されている
特に、ハルシネーションや安全性、さらに著作権侵害の課題が多くなっている状況の中で、オープンである事がかえって批判を受けるターゲットになる可能性が高くなっていて、クローズド系の方が企業として投資をすることによるリスクの軽減、法的な保護を提供する、などの商業的な対策が打ちやすい、というのが現時点の考え方なのかもしれません。