![見出し画像](https://assets.st-note.com/production/uploads/images/107926050/rectangle_large_type_2_e4f70aa7da1d170dcf046aab25a43d0b.png?width=1200)
登場:オープンソース商用利用可能/大規模言語モデル Falcon 1兆個トークン
Falcon LLMは、1兆個のトークンで学習させた400億個のパラメータを持つ基礎的な大規模言語モデル(LLM)です。このモデルは、GPT-3の75%、Chinchillaの40%、PaLM-62Bの80%しかトレーニング計算を使用しません。
![](https://assets.st-note.com/img/1686452119915-1bvTUbvDYg.png?width=1200)
FalconはGPT-3の75%の学習計算予算でGPT-3を性能で大きく上回る
Falconはカスタムツールを使って構築され、NVIDIA、Microsoft、HuggingFaceの作品とは独立して、ウェブデータから高品質のコンテンツを抽出し、カスタムコードベースのトレーニングに使用できる独自のデータパイプラインを活用しました。
特に重視したのは、規模に応じたデータ品質です。LLMはトレーニングデータの品質に非常に敏感であるため、数万CPUコアまで拡張して高速に処理できるデータパイプラインの構築と、広範なフィルタリングと重複排除を使ってウェブから高品質のコンテンツを抽出することに注力することで、学習計算予算をGPT-3の75%に抑え込みました。
AWS上の384のGPUで2ヶ月かけて学習
Falconは、1兆個のトークンで訓練された400億パラメータの自己回帰デコーダオンリーモデルです。
Falconの事前学習データセットを構築するために、ウェブのパブリッククロールから事前学習データを収集した。CommonCrawlからのダンプを使用し、大幅なフィルタリング(機械生成テキストとアダルトコンテンツの除去)と重複排除を行った後、約5兆トークンの事前学習データセットが組み立てられました。ファルコンの能力を高めるため、このデータセットに、研究論文やソーシャルメディアからの会話など、いくつかのキュレーションされたソースを追加しました。
最後に、EAI Harness、HELM、BigBenchといったオープンソースのベンチマークに対して、Falconの性能を検証しました。
Falconはオープンソース
GPTなどの各種大規模言語モデルはソース非公開ですが、Falconはアパッチライセンスv 2.0 によるオープンソースです。
なぜオープンソース?
テクノロジーイノベーションインスティテュートは、グローバルな研究コミュニティや中小企業の起業家から、ファルコンLLMのユースケースの提案を募集しています。優れたユースケースの提案には、TIIがさらなる商業化の機会を提供することに加え、投資として「トレーニング用コンピュートパワー」を提供します。
Falcon-Chat demo はこちら
![](https://assets.st-note.com/img/1686453493767-32NsgNAxQV.png?width=1200)
AWSのGPU 384個のみでトレーニング出来ているとのことで、中小企業でも大規模言語モデルの新規開発が可能であることを示唆したという点で重要です。OpenAIのChatGPTもそうですが、ごく僅かの少人数でGoogleなどの巨人と戦える新たな市場とも言えるでしょう。