見出し画像

LLMをo1推論能力に更新するための訓練スクリプトとデータ (Sky-T1 UC Berkeley)

5,664 文字

コミュニティの皆さん、本日は高度なo1推論のためのLLMのコーディングについてお話しします。これには500ドル以下で実現できます。ご存知の通り、OpenAI o1やドイツの思考モデルQWQ、Deep SE R1といった非常に強力なLLMがあり、これらは推論実行時に数分間かけて高度な推論を行います。一方で、それほど強力でない他の小規模なLLMもあります。今日は、そういったLLMの能力を向上させる方法について説明します。
昨日の動画で、ハーバード大学とマイクロソフトによる実装を紹介しました。小規模な言語モデルでチェーン・オブ・ソートの思考方法をコーディングする方法についてです。すると「ほとんどの実務者にとってアクセスしにくい」という素晴らしいフィードバックをいただきました。そこで、この課題に取り組むことにしました。
昨日、マイクロソフトがDeep SE Codバージョン2とQ1 2.5 Matt 7B modについて話していました。興味深いことに、マイクロソフト自身がOpenAIやマイクロソフトのモデルではなく、中国の同僚のモデルを使用していました。まず最初のステップとして、クラウドの計算能力が必要です。残念ながらスポンサーではありませんがLambdaを使用します。そして、UC BerkeleyのSkyコンピューティングラボの助けも必要です。
2024年12月22日のAI研究レポートを紹介する必要があります。これはSTEEL 2と呼ばれるものです。STEELとは「Slow Thinking with LLMs」の略で、フェーズ2の思考、つまり推論実行時に数分かけて計算を行う推論実行のことです。完全なコードが必要な場合は、GitHubにあります。
彼らは論文で全てを説明していますが、前回の動画をご覧になった方はもうご存知でしょう。o1は単一の推論ステップを提供しないため、QWQとDeep Seekによる単一の推論ステップがあります。彼らがどのように問題にアプローチし、どのような推論パターンを適用しているのかが正確にわかります。オープンソースであり透明性があるため、これらのLLMで行われている推論プロセスを理解するために使用できます。
STEEL 2の論文では、中国の同僚から長文推論と長期推論に関する指示データを収集した後、システム2のスロー思考モードの動作を複製するために別のモデルを微調整すると述べています。最もシンプルなアプローチとして、この長文推論パターンのための訓練データが必要で、チェーン・オブ・ソート推論が有効になっていないシンプルなLLMを微調整して、スロー思考モードの動作を複製します。
興味深いことにSTEEL 2は、Q1 2.5 32Bインストラクトモデルを長文および長期推論チェーン・オブ・ソートなどの微調整用モデルとして選択しました。彼らは推論モデルのプロンプトテンプレートなど、すべてを提供してくれています。詳細を読んで何が起きているのかを理解できます。
彼らは段階的に訓練データセットを改良しています。より難しい問題による推論の正しい軌跡を組み込んだり、より強力な推論モデルによって生成された高品質な軌跡を追加したりして、パフォーマンスを段階的に改善できます。教師あり微調整を行うか、STEEL 2の論文のように、特定のポジティブ・ネガティブインスタンスのペアに対してDPO強化学習を行うことができます。
データについて注意すべき点があります。彼らはデータの混合に特別な注意を払う必要があったと述べています。訓練データには3つの要素があります:非常に難しい数学の問題、通常の数学の問題、そして他の分野からの単純なデータです。結論として、チェーン・オブ・ソート推論のような長期思考の能力は、少量の高品質なデモンストレーションデータで効果的に引き出すことができるということです。
これで私たちはパターン生成エンジンとしてのLLMを手に入れ、より小規模なLLMにもo1推論能力を持たせることができます。しかし、o1から直接取得することはできないため、中国の同僚のオープンソースモデルを使用します。これらの蒸留ベースのバリアントは全て優れたパフォーマンスを示しています。
現在、彼らは視覚推論とロングソートを行うVirgoと呼ばれる次のステップに進んでいます。GitHubで確認できます。2025年1月3日の論文「Virgo: A Preliminary Exploration on Reproducing O-like MLLMs」は非常に興味深いものです。
今日のトピックであるSky-T1は、Anyscaleの支援を受けて開発されました。企業がオープンソースコミュニティの知識の進歩を支援し、新しいオープンソースモデルを利用可能にする場合、私は必ずそれを言及します。残念ながらスポンサーではありませんが、Anyscaleのような企業に注目する価値があります。
UC Berkeleyの成果を見てみましょう。素晴らしいことに、彼らは全てをオープンソース化しています。モデル、コード、訓練データ、さらには訓練スクリプトまで、全てにアクセスできます。本当のオープンソースを求めるなら、Sky-SORTがそれです。Hugging Faceで利用可能で、私はHugging Faceで利用できるものを好みます。
Nova Sky AIのSky-SORT-1モデルは30Bプレビューモデルで、1日前に更新されました。訓練データセットもHugging Faceで13時間前に公開され、300MB未満とかなり小規模です。完全なコードなどが必要な場合は、GitHubリポジトリのSky-SORTにアクセスできます。データは23分前に更新されたばかりです。
Sky-T1モデルはこのアイデアの最初のものだと思いますが、OpenAI o1プレビューモデルに近いパフォーマンスのLLMを約500ドルで訓練できることを想像してください。本当に印象的です。3時間前にApache 2ライセンスが含まれ、あなたの活動のためのオープンソースとなっています。UC Berkeley、ありがとうございます。
彼らが使用したモデルを見てみましょう。推論の蒸留と改善について話す場合、どこかから始める必要があります。訓練データを生成するために、QWQ 32Bプレビューモデルを使用したとUC Berkeleyは述べています。これはOpenAI o1プレビューモデルに匹敵する推論能力を持つオープンソースモデルです。この動画で示したように、彼らは正確な推論ステップをステップバイステップで提供してくれています。
その後、訓練データを使用してQ1 2.5 32Bインストラクトモデルを微調整しました。ただし、このオープンソースモデルには、チェーン・オブ・ソート推論などの長文推論機能がないことに注意してください。つまり、o1のような推論機能を持たないモデルを取り、o1と同等のパフォーマンスを持つo1の競合モデルから得た訓練データセットで訓練します。オープンソースが本当に勝利を収めています。
このモデルは3エポックで訓練され、学習率などすべてが提供されています。Lambdaプラットフォームで8台のH100 GPUを使用して19時間かかり、価格設定で450ドルを支払ったとのことです。
このオープンソースのコードを使用して、より良い推論能力を持つLLMを微調整できます。長文推論や長期推論のための訓練データがあるためです。
興味深いことに、このオープンな世界は時々本当に魅力的です。UC Berkeley、つまり米国の主要なAI研究機関の一つを考えてみてください。地理的にOpenAIは手の届く範囲にあります。しかし、彼らは何をしたでしょうか?中国のQWQとQ1モデルというオープンソースを選びました。なぜなら、それらを実験し、作業できるからです。
これにより、o1の推論方法を持たない他のすべてのモデルの推論能力を改善する方法論が得られました。米国の大学が米国企業と協力せず、その米国企業のOpenAIが営利フェーズへの移行を非常に気にしているのは興味深いことです。時として、利益重視はAIの進歩に本当に役立つとは限りません。AIは大きな一歩で進歩しているのです。
UC Berkeleyの発見について、あなたのLLMに実装する場合の知見を見てみましょう。彼らはかなりの実験を行い、より小規模なモデルでも試しました。32Bはかなり大きく、8台のNVIDIA H100 GPUが必要ですが、7Bや14Bはどうでしょうか?
しかし、この蒸留プロセスでは、わずかな改善しか観察されませんでした。QWQによって見つかったデータセットには固有の複雑性レベルがあり、7Bや少し大きい14Bモデルでは推論プロセスに統合できないためです。複雑性レベルが低すぎるため、そのような高い複雑性を持つ訓練データセットを与えられても、モデルは処理できません。
彼らは小規模なQ1 2.5 4Bコーダインストラクトを訓練しようとし、42から46への増加を達成しました。しかし、ここでデータの混合が問題になります。32B未満の小規模なモデルの出力を調査すると、一般的に繰り返しの内容を生成する傾向があることがわかりました。これらの小規模モデルは特定の閾値で自身を繰り返すだけで、高度な推論の効果を制限してしまいます。
UC Berkeleyの結論として、32B未満のモデルは高度な推論には適していないということです。データの混合について、彼らは多くの実験を行い、その知見から恩恵を受けることができます。32Bモデルを使用し、特定の精緻化されたデータセットから特定の数学の問題を取り、特定のベンチマークで16%から43%への大きな改善を達成しました。
しかし、数学以外の分野、例えばコーディングを追加しようとすると、精度は36%に低下しました。16%から始まったことを考えると、43%から36%への低下は決して悪くありません。しかし、両方の分野で改善できるデータの混合があるのかという疑問が生まれました。
この性能の低下は、特に数学とコーディングタスクに必要な異なる推論アプローチによるものだと彼らは仮説を立てました。微調整のための特別なデータ混合を考慮する必要があることに気づき、シンプルな解決策を見つけました。
推論とコーディングでは、テスト入力の内部シミュレーションや生成されたコードの実行など、追加の論理ステップが必要になることが多いのに対し、数学の問題はより直接的で明確な構造を持つ傾向があります。
UC Berkeleyは、これらの違いに対処するため、別のデータセットから難しい数学の問題と複雑なコーディングタスクで訓練データセットを強化しました。試行錯誤を経て、バランスの取れたデータ混合により、新しいモデルは両方の分野で優れた性能を発揮し、より良い精度を回復しながらコーディング能力も向上させることができました。
あなたのLLMを構築する分野が何であれ、数学、コーディング、物理、化学、金融など、高レベルのチェーン・オブ・ソート推論のサブチェーンからデータの混合が適切であることに注意を払い、LLMから最高のパフォーマンスを引き出せるようにする必要があります。
ベンチマークデータを見てみましょう。500ドル未満で構築された新しいモデル、Sky-T1 32Bプレビューです。これは長文推論パターンを持たないベースモデルQ1 2.5 32Bインストラクトを基に構築されました。そして、従来のQWQ 32BとOpenAI o1プレビューと比較しています。
データを見ると、ベースモデルから微調整モデルへのジャンプは素晴らしく、特に16から43への向上は注目に値します。これは特定のベンチマークでo1プレビューモデルを上回っています。しかし、もちろん結果は混在しています。Q1では84から86への向上に留まり、o1プレビューの92にはまだ及びません。しかし、このベンチマークでは40から56への向上が見られ、QWQの56.3よりも良い性能を示し、o1プレビューはさらに低いパフォーマンスでした。
データの混合と全ての要素に注意を払う必要がありますが、今日の動画でこれを選んだのは、これを実装したい場合、450-500ドルは簡単ではなく多額の費用ですが、何千万もかかる他のモデルと比較してみてください。この知見により、少額の投資を厭わないのであれば、あるいはスタートアップや小規模企業であっても、モデルの性能を向上させたい場合、わずかな資金で大きな前進が可能だということがわかります。
コード、訓練データ、テスト、訓練スクリプトの全てがオープンソースで、あなたの実験を待っています。特定の分野(金融、医療など)のために訓練データセットを最適化したい場合もあるでしょう。これは、それほど知的でない小規模なLLMをQWQやo1モデルのレベルまで引き上げる素晴らしい方法だと思います。
これはQWQのようなスタートアップ企業がモデルをオープンソース化しているからこそ可能なのです。OpenAI o1モデルのように、これを提供しないモデルだけでは、オープンソースLLMを進歩させる機会はありませんでした。OpenAIには、営利志向との収束を期待し、近い将来、少なくともいくつかのオープンソースLLMを提供していただけることを願っています。
オープンソースAIコミュニティでの技術進歩からOpenAIが完全に除外されるのは残念なことです。今日はここまでです。新しいアイデアを得て、より良い推論能力を持つ独自のLLMの構築に興味を持っていただけたなら幸いです。チャンネル登録をお願いします。次の動画でお会いしましょう。

いいなと思ったら応援しよう!