独自のLLMをトレーニングするReplitのアプローチ

0xpanda alpha lab

2023年5月1日 11:43

ReplitというブラウザベースのIDE（Integrated Development Environment／統合開発環境）を提供する会社が独自のLLMをトレーニングするアプローチを公開していますので、今回の記事は、それを紹介します。

Replit概要

ブラウザベースのIDEを提供する会社で、AIの力を活用してコラボレーティブなソフトウェア開発を実現しています。

Replitは、あらゆるデバイスで、セットアップに時間をかけずにプロジェクトを開始し、迅速に開発することができます。
すべてのプロジェクトは数回のクリックでライブになり、カスタムドメインを使用して簡単に作品を世界に共有できます。
Replitでは、どこからでも、誰とでも、どんなデバイスでも一緒に作成できるよう、ライブコラボレーションが組み込まれています。
さらに、AIアシスタントを使用してコーディングを加速し、ストレージやメモリを向上させることができます。
Replitでは、チュートリアルやバウンティプログラムを通じて学びながらプロジェクトを作成することができます。

Replit独自のLarge Language Modelsトレーニングアプローチ

Replitは、Databricks、Hugging Face、MosaicMLを使用して独自のLarge Language Models（LLMs）をトレーニングしています。

このプロセスは、生データからユーザー向けの本番環境への展開までをカバーしており、コード生成のユースケースに特化していますが、一般的な言語モデルにも適用可能です。LLMのトレーニングは、より高度なNLPタスクを実現するために必要であり、開発者や企業が自然言語処理を活用して効率を向上させることができます。

なぜ独自LLM必要か

データプライバシーやセキュリティー、アップデートや改善に対する制御性の向上など、多くの理由があります。しかし、Replitでは、カスタマイズ性、依存性の削減、コスト効率の向上が主な理由です。

また、小規模で効率的でコストが削減されたカスタムモデルをトレーニングすることで、開発者コミュニティ全体にとっての依存性を減らすことができます。

そのためには、膨大なデータを扱うデータパイプラインの構築が必要となり、Apache SparkとDatabricksを使用しています。その上で、データの前処理やトークナイゼーションを行い、高度なデータ処理を行っている。最後に、Replit固有の言語や文脈を考慮したモデルをトレーニングすることで、コストを削減し、将来的には学生でも使用できるようにし、AIのグローバルな活用を促進することを目指しています。

つまり

LLMのトレーニングが必要な理由: 高度なNLPタスクの実現、開発者や企業の効率向上
独自のLLMをトレーニングする理由は、カスタマイズ、依存性の軽減、コスト効率の向上

データパイプライン、トレーニングプロセスなど

データパイプラインLLMsは大量のデータをトレーニングに必要とするため、ロバストで高度に最適化され、新しいパブリックおよびプロプライエタリデータソースを簡単に含める柔軟性があるデータパイプラインを構築する必要があります。今回のアプローチは以下になります。

データ処理には、Databricksを使用してパイプラインを構築します。
トークナイズする前に、カスタム語彙をトレーニングして、改良されたモデルパフォーマンスとトレーニング・推論の高速化を実現します。
MosaicMLを使用してモデルをトレーニングします。
- ハイパーパラメータの最適化、モデルアーキテクチャの選択
- トレーニングデータのバッチ処理、損失関数の最適化
モデルの評価にはHumanEvalフレームワークのバリエーションを使用
本番環境への展開では、NVIDIAのFasterTransformerとTriton Serverを使用してインファレンスプロセスを高速化
フィードバックとイテレーションを行い、プロセスを改善

最後に

Replitは、データパイプラインを使用して、大規模な機械学習モデルのトレーニングや展開を行っています。彼らは、コード生成、トークン化、モデルのトレーニングなどのプロセスに取り組んでおり、Databricksなどのツールを使用して、トレーニングプロセスを追跡し、フィードバックを収集しています。次のステップとしては、モデルを本番環境に展開し、継続的な改善を行うことが重要です。興味があるエンジニアぜひ参考してみてください。