DeepSpeed-ChatがAI業界を革新、効率向上とコスト削減を促進し、アプリケーションの展開を加速
AGIの発展が止まらないです。AutoGPTが話題になっている一週間の中MicrosoftがDeepSpeed-Chatをオープンソース化したことで、ChatGPTモデルの簡単なトレーニングと推論が可能になりました。
DeepSpeed-Chatの開発により、AIモデルのトレーニングと推論が簡単にできるようになりました。事前にトレーニングされたHuggingfaceモデルを使用し、DeepSpeed-RLHFシステムを実行することで、監視されたファインチューニング、報酬モデルファインチューニング、そして人間からのフィードバック強化学習(RLHF)を含むすべてのステップを行い、独自のChatGPTモデルを生成できます。以下の絵がその特徴がまとめております。
DeepSpeed-HEはDeepSpeed-RLHFシステムのエンジンであり、以下の3つの利点があります。まず、現在の他のシステムよりも15倍以上効率的です。Azure Cloud上で、低コストでOPT-18Bを30時間以内、OPT-600Bを300時間以内でトレーニングできます。第2に、数兆のパラメータを持つモデルをサポートし、1日以内に巨大な175Bモデルをトレーニングできます。第3に、1つのGPUだけで、13億のパラメータを超えるトレーニングモデルをサポートできます。
以下の表は「実行効率とコスト」、「高スケーラビリティ」を示す内容になっています。
DeepSpeed-Chatのオープンソース化により、AI産業全体の効率向上とコスト削減を図ることができ、大規模モデルメーカーのトレーニングを加速し、小規模メーカーが自分たちのシナリオやデータに基づいて低コストで自分たちの小規模ChatGPTモデルを素早く構築できるようになります。また、大規模モデルの微調整時のコスト削減にも役立ちます。
DeepSpeed-Chatの開発により、オフィス、マルチモードGPT、スマートアシスタント、金融、医療などのシナリオでのFINETUNEの難易度と利便性が向上し、アプリケーションの多様性が加速します。中期的には、トレーニング端末の算力要件が増加することが予想されますが、DeepSpeed-Chatは各種アプリケーションの普及を加速させ、市場の誤解とは異なる期待を持たせます。