Reinforcement Fine-Tuning (RFT)とは?12 Days of OpenAI②
OpenAIの新たなイベント「12 Days of OpenAI」の2日目についてまとめます!
OpenAIは来年、新技術「Reinforcement Fine-Tuning (RFT)」をリリース予定らしいです。
簡単に言うと、少量の専門的なデータを使って、モデルを専門家並みに育てちゃおうっていう仕組み。
かなり期待大です。
RFTってなに?
RFTは、OpenAIがGPT-4やO1といったモデルを強化学習で鍛え上げるために使っている内部技術らしいです。
普通の教師あり学習(Supervised Learning)って、入力と出力のペアをただ覚える感じだけど、RFTはもう少し踏み込んで「推論プロセス」自体を改善していく。
つまり、モデルが答えにたどり着くための「考え方」を教え込むわけです。
ソフトバンクの孫正義会長が2024年10月に「O1」について次のように言及してたのを思い出しました!
ちなみにO1を使って画像の推論をしてもらいました!
主な特徴
RFTのすごいところは、モデルが複数ステップの推論をする過程を評価して、正しい考え方を強化していくこと。
正しい推論をしたら報酬
間違った推論をしたらペナルティ
少量データでの学習
柔軟な推論能力
これで、わずかなデータでもモデルを専門家レベルに近づけられるみたい。
具体的な使われ方
法務分野:Thomson Reutersとのタッグで「O1 mini」モデルを法務アシスタント化。専門的な法務ワークフローを効率化できる。
医療分野:バークレー研究所のJustin Reese氏と組んで、希少疾患の診断をサポートするツールにO1 miniを進化。
数百件の症例報告から抽出したデータで訓練して、既存モデルより高い精度を出せたらしい。
他にも金融や科学研究で使われるとのことでした!
RFTを使うには?
RFTはOpenAIの開発者向けプラットフォームから使えるみたい。流れとしてはこんな感じ:
開発者プラットフォームで新しいファインチューニング用モデルを作る。
「Reinforcement」を選び、ベースモデル(例:o1-mini)を指定。
トレーニング用とバリデーション用のJSONLデータをアップロード(別々のデータセットで用意)。
モデルの評価に使う「グレーダー」を設定(スコアリングの仕組み)。標準グレーダーはあるけど、独自のPythonファイルでカスタムも可能。
ハイパーパラメータはデフォルトでもOK。必要なら微調整。
「Create」をクリックでトレーニング開始。
終わったらダッシュボードで結果をチェック。
今後の展開
RFTは2025年の早い時期に一般公開される予定で、今はパートナー限定でアルファ版を提供中とのこと。
自分の得意分野の知識を持ち込んで、専門分野にピンポイントで特化したAIを作れるようになる日も近いかも。
要するに、RFTは「少ない専門データでモデルをエリート化させる強化学習手法」なわけで、
AI開発における「専門家の知恵」を気軽に注入できるようになる、そんな未来が来年以降はやってくるっぽいです。
では!