AMDでも訓練可能: OLMoが切り開くAI開発の新時代
AI2(Allen Institute for AI)を含む5つの研究機関が共同で、史上最も包括的な完全開源大規模言語モデル「OLMo」を発表し、開源コミュニティに新たな標準を打ち立てました。OLMoはモデルの重みから訓練コード、データセット、訓練過程まで全てを公開。そして、AMDのGPUでの訓練が可能であることが明らかになり、LLMには必ずしもNVIDIAのGPUが必要ではないという新たな選択肢を提示しました。投資アドバイスではありませんが、「NVIDIA株が高騰して手が出ないなら、冗談みたいだけどAMDでどうだ?」という選択もあり得るわけです。
OLMoプロジェクトバックランド
AI2(Allen Institute for AI)をはじめとする複数の研究機関の協力の下、オープンソースAIコミュニティに新たなマイルストーンとなる大規模言語モデル「OLMo」が誕生しました。AMDやCSCとのパートナーシップによりLUMIスーパーコンピュータを使用した実験が可能になり、Harvard UniversityのKempner Instituteなど多くの個人や機関の支援を受けています。OLMoは、モデルの重み、訓練コード、データセット、訓練過程を全て公開し、AMDのGPUでも訓練が可能であることを証明しました。
公式論文、ブログ
OLMoの特徴
完全開源: OLMoは、モデルの重み、訓練コード、データセット、訓練過程を全て公開し、研究者や開発者が自由にアクセスし、利用できるようにしました。
性能評価: OLMo-7Bは、同規模の開源モデルと比較して優れた性能を発揮し、多くのタスクで最先端の結果を達成しました。
アーキテクチャ: OLMoは、SwiGLU活性化関数とRoPE技術を組み合わせたdecoder-onlyのTransformerアーキテクチャに基づいています。
訓練プロセス
分散訓練フレームワーク: OLMoの訓練にはPyTorchのFSDPフレームワークとZeRO最適化戦略が使用され、高効率の訓練を実現しました。
データセット: 訓練にはDolmaデータセットが使用され、これは7つの異なるソースから得られた3兆トークンを含む多様で多源的なコーパスです。
AMDとNVIDIAのサポート: OLMoは、AMDのGPUを搭載したLUMI超計算機と、NVIDIAのA100 GPUを搭載したMosaicML (Databricks) の支援を受け、両方のプラットフォームでの高い訓練効率を示しました。
影響と展望
開源コミュニティへの影響: OLMoの公開は、AI開発の透明性と再現性を大幅に向上させ、研究者や開発者によるイノベーションを促進します。
今後の展望: OLMoの開発チームは、さらに多くのモデル、多様なモダリティ、データセット、セキュリティ対策、評価方法の導入を計画しており、OLMoファミリーを拡張することを目指しています。
総括
OLMoの公開は、AI開源コミュニティにとって画期的な出来事です。この完全開源モデルは、AI研究と開発の透明性を高め、さらなるイノベーションを促進する可能性を秘めています。OLMoの取り組みが示すオープンなコラボレーションの精神は、AI技術の未来においてますます重要な役割を果たすでしょう。