Air Street Capital社のState Of AI Report 2023を読む(4)
Air Street Capital社が2023年10月に発表したレポートの内容を1ページずつ読み込んできます。
今日はその第4回。
今まで、Chat-GPTに代表される、クローズド型のLLMが主流だったのが、2023年3月のLlamaの登場を皮切りにオープンソース型のLLMへの話題が多くX(元Twitter)で取り上げられるようになってきます。
Llamaなどは研究目的で開発されていたため、商用での使用は禁止されていましたが、FalconやLlama2の登場から商用での利用が許容されるようになり、さらに広く使われるようになってきてます。
この表では横軸は時系列でのLLMの登場を表していて、丸の大きさはXで登場している回数を示してます。縦軸はMMLUスコアという数字を採用していて、これはLLMの性能、能力を示す指標です。
MMLU (Massive Multitask Language Understanding) という指標についてもう少し詳しく紹介します。
MMLU(Massive Multitask Language Understanding)とは、ゼロショット (Zero Shot: 何の訓練の無い状況の中での対応を評価するテスト)およびフューショット (Few Shot: 少量のトレーニング実施後の対応評価テスト)の設定でモデルを評価し、LLMモデルを評価するためのベンチマークです。元は、Dan Hendricks氏、Collin Burns氏などの大学研究者で論文化されたもので、STEM、人文科学、社会科学など、57の主題を網羅し、人間の知識や能力を評価する手法に限りなく近いデザインを目的に設計されてます。主題の詳細度と幅広さが、モデルの盲点を特定するのに理想的なベンチマークとされてて、広くLLMの評価に採用されています。
ベンチマークの結果はここに掲載されてます。
上記の表は、LLMの技術の変遷を表してますが、特に注目すべきなのは、横軸がたったの7が月程度しかない、ということです。
初めて公式に登場して一年も経っていない技術がこれだけ広く話題になり、技術革新も激しく推移しているテクノロジーはITの歴史においても無いのでは、と思います。
人間、情報が入ってくるのはジッと待っている状態ではいけないなぁ、とつくづく感じてしまいます。追いついて追い越す事は難しくても、なんとかついていくことは頑張れば誰でもできる!と自分を戒めています。