Reinforcement Fine-Tuning (RFT)とは？12 Days of OpenAI②

2024年12月10日 00:16

OpenAIの新たなイベント「12 Days of OpenAI」の2日目についてまとめます！

OpenAIは来年、新技術「Reinforcement Fine-Tuning (RFT)」をリリース予定らしいです。
簡単に言うと、少量の専門的なデータを使って、モデルを専門家並みに育てちゃおうっていう仕組み。
かなり期待大です。

RFTってなに？

RFTは、OpenAIがGPT-4やO1といったモデルを強化学習で鍛え上げるために使っている内部技術らしいです。
普通の教師あり学習（Supervised Learning）って、入力と出力のペアをただ覚える感じだけど、RFTはもう少し踏み込んで「推論プロセス」自体を改善していく。
つまり、モデルが答えにたどり着くための「考え方」を教え込むわけです。

教師あり学習（Supervised Learning）とは、機械学習の手法のひとつで、「正解がわかっているデータ」を使ってモデルを訓練することを指します。たとえば、画像とそれが「犬」なのか「猫」なのかといった正解ラベルが事前に与えられている場合、モデルは与えられた画像に対して正解ラベルを予測する方法を学習します。

ソフトバンクの孫正義会長が2024年10月に「O1」について次のように言及してたのを思い出しました！

今回のO1はですね。GPTの頭文字がついてないんですプリトレーニングじゃないんです。
事前学習のプリトレーニングとは違うんです。
（中略）
今までは検索だとかあるいは、GPT-4の世界というのはですね。速さということが大事でした。
しかしO1になると、この速さを自慢するんじゃなくて深さを自慢するそういうステージが来たんですね。

ちなみにO1を使って画像の推論をしてもらいました！

ChatGPT o1に搭載された画像をアップロードして、ビジュアルに推論をする機能。
なかなか的確ですね😄

たしかにプリスタくんは「何かをキスしようとしている」のかもしれない。 pic.twitter.com/DTfIDHjlwd
— もっちゃん｜SWC (@mocchan_f) December 7, 2024

主な特徴

RFTのすごいところは、モデルが複数ステップの推論をする過程を評価して、正しい考え方を強化していくこと。

正しい推論をしたら報酬
間違った推論をしたらペナルティ
少量データでの学習
柔軟な推論能力

これで、わずかなデータでもモデルを専門家レベルに近づけられるみたい。

具体的な使われ方

法務分野：Thomson Reutersとのタッグで「O1 mini」モデルを法務アシスタント化。専門的な法務ワークフローを効率化できる。
医療分野：バークレー研究所のJustin Reese氏と組んで、希少疾患の診断をサポートするツールにO1 miniを進化。
数百件の症例報告から抽出したデータで訓練して、既存モデルより高い精度を出せたらしい。

他にも金融や科学研究で使われるとのことでした！

RFTを使うには？

RFTはOpenAIの開発者向けプラットフォームから使えるみたい。流れとしてはこんな感じ：

開発者プラットフォームで新しいファインチューニング用モデルを作る。
「Reinforcement」を選び、ベースモデル（例：o1-mini）を指定。
トレーニング用とバリデーション用のJSONLデータをアップロード（別々のデータセットで用意）。
モデルの評価に使う「グレーダー」を設定（スコアリングの仕組み）。標準グレーダーはあるけど、独自のPythonファイルでカスタムも可能。
ハイパーパラメータはデフォルトでもOK。必要なら微調整。
「Create」をクリックでトレーニング開始。
終わったらダッシュボードで結果をチェック。

今後の展開

RFTは2025年の早い時期に一般公開される予定で、今はパートナー限定でアルファ版を提供中とのこと。
自分の得意分野の知識を持ち込んで、専門分野にピンポイントで特化したAIを作れるようになる日も近いかも。

要するに、RFTは「少ない専門データでモデルをエリート化させる強化学習手法」なわけで、
AI開発における「専門家の知恵」を気軽に注入できるようになる、そんな未来が来年以降はやってくるっぽいです。

では！