
OpenAIの元共同創業者がChatGPTの後訓練手法を公開!
ポイント
OpenAIの元共同創業者ジョン・シュルマンとバレット・ゾフがChatGPTの後訓練手法をPPTで公開
シュルマンはX(旧Twitter)でPPT公開を発表し、録音・動画の有無を尋ねる投稿も
後訓練とは、モデルをアシスタントらしく調整し、実運用に適合させるプロセス
主要な後訓練手法は「監督微調整(SFT)」「報酬モデル(RM)訓練」「強化学習(RL)」
ChatGPTの進化とともに、モデルの拒否応答・バイアス・スペルミス問題などの課題が発生
OpenAIの元CTOミラ・ムラティが設立した新スタートアップ「Thinking Machines Lab」に2人が参加
ムラティはOpenAIやGoogleなどから20名以上のトップ研究者を引き抜き、1億ドル以上を調達
本文
OpenAIを離れた後、彼らはChatGPTの後処理(後訓練)方法をPPT(プレゼン資料)にまとめ、公開した。

ネットユーザーの言葉を借りれば、おそらく彼らほどChatGPTの後訓練について詳しい人物はいないだろう。
というのも、一人はOpenAIの共同創設者であり、かつてOpenAIの後訓練の共同責任者でもあったジョン・シュルマン(John Schulman)、もう一人はOpenAIで後訓練研究のVPを務めていたバレット・ゾフ(Barret Zoph)だからである。
ジョン・シュルマンの投稿
ジョン・シュルマンはX(旧Twitter)で次のように投稿した。
「ああ、バレット・ゾフと私は最近スタンフォードで、後訓練とChatGPT開発の経験について講演をしました。 残念ながら録画はされていませんが、PPTはあります。」
さらに、全インターネットを巻き込んで録音や動画を探し回り、 「もし録音を持っている人がいたら教えてください!」と呼びかけた。
ネットユーザーはコメントせず、ただひたすら「いいね」とブックマークを押すのみだった。

現地参加者の証言
講演に参加したユーザーの中には「本当に素晴らしい講演だった」と証言する者もいた。

また、あるユーザーは感謝の言葉を述べた後、さらなる情報を求めた。

「もし訓練後の最新の進展、例えば推論モデルやDeepSeek RLなどについても共有してもらえたら最高ですね。」

PPTの内容を見てみよう!
ChatGPT後訓練方法のPPT

まずは自己紹介から。

バレット・ゾフとジョン・シュルマンは、OpenAIで後訓練の共同責任者を務めており、2022年9月から協力を開始した。 彼らの主な目標は、適切に対話できるチャットボットを開発することだった。 当初のチームは「RL」と呼ばれ、わずか数人しかいなかった。
次に、後訓練(Post-Training)とは何かについて説明している。
後訓練とは? モデル開発の最後のステップであり、モデルをアシスタントらしくし、特定のフォーマットに従わせ、実際の運用環境に適合させることを目的とする。 このフェーズでは、通常、製品チームと密接に連携する。

具体例を用いて、基礎モデルと後訓練モデルの違いを比較している。


後訓練 VS 事前訓練の違い
計算資源の要求が低く、反復サイクルが速い
人間のフィードバックを活用した強化学習(RLHF)を使用
モデルにツールの使い方を教える
モデルの個性を形成する
拒否/安全行動を導入する
振る舞いが事前訓練時の一般化能力に強く依存する

後訓練には、監督微調整(SFT)、報酬モデル(RM)訓練、強化学習(RL) の3つの主要な構成要素が含まれる。

以下、それぞれの詳細について説明があった。



ChatGPTとOpenAIの後訓練の進化
次に、ChatGPTとOpenAIの後訓練の初期の発展について振り返った。
GPT-3、GPT-3.5のリリース
RLチームの取り組み
GPT-4の準備プロセス
ChatGPTの公開決定
リリース後の予想外の成功、爆発的な拡散

ChatGPTは、一時的に大量のユーザーが押し寄せ、サーバーがダウンするほどの人気を博した。

時間が経つにつれて、ChatGPTのモデルや機能はどんどん進化し、多様化していった。
2022年12月の初期バージョンと2025年1月のバージョンを比較

多くの機能が追加された

機能拡張とリスク管理
最後に、機能の拡張と会社の規模拡大に伴い、 「メインラインモデル(mainline model)」の設定を通じて、変更を統合しリスクを低減する方法 について説明した。
小規模テストの実施
頻繁なアップデートで徐々に変更を統合
問題が発生した場合、迅速に以前のバージョンへロールバックできる仕組み

このPPTは、ChatGPTの後訓練における貴重な知見を詰め込んだものとなっており、 多くの開発者や研究者にとって非常に参考になる内容だったようである。 この過程では、いくつかの誤りや課題も発生した。

例えば、モデルがテキストを生成する際に多くのスペルミスが見られた。
強化学習(RL)後にはスペルミスの発生率が上昇し、教師あり微調整(SFT)のデータセットにはスペルミスを含むプロンプトが見つかった。
最終的には、比較プロセスを用いて改善を行い、2つの生成テキスト(completion 1 と completion 2)を比較し、より良いバージョンを選択する方法が採用された。専門家がこれらを比較し、必要に応じて改善版を作成することもあった。

また、「過度な拒否」の問題も発生した。

初期の拒否応答は冗長すぎる傾向があった。

例えば、時制を変更することでモデルの拒否メカニズムを回避できる方法もあった。

2人は、拒否応答の処理が難しい理由について説明した。そこには、境界設定の問題や人間のデータに関する課題が関係している。
解決策として、ペアデータの使用、適切な境界例の提示、ラベルデータの階層的な処理などが挙げられた。

さらに、モデルにはバイアスが含まれることもある。

また、虚偽や誤解を招くコンテンツを生成してしまう可能性もある。

審美性や主観が関わるタスク、あるいは高い精度が求められるタスクにおいて、質の高い人間のフィードバックを得ることも大きな課題となる。
この課題に対する解決策の一つとして、人間とAIチームの協力によるラベリングが挙げられた。

また、異なる情報源からの人間のフィードバックが、プロンプトの多様性、ラベルの品質、専門分野、正確性、意図、コンプライアンスといった側面にどのような影響を与えるかについても議論され、それぞれの長所をどのように活用するかについて提案がなされた。

モデルを意図通りに動作させるための第一歩は、まず「何を求めているのか」を明確にすることである。



2人は、このステップが予想以上に難しく、明確な規範を定める必要があると述べた。
OpenAIのモデル規範と今後の課題
OpenAIは2024年5月にモデル規範を発表した。

また、「モデルの多様性や創造性をどのように維持するか」という未解決の問題もある。
2人は、後処理の反復やモデルの蒸留を通じて、これらの特性を保持・強化できると述べた。

InstructGPTやLlama 3.1を代表とする「二つの時代」のモデル訓練プロセスを総括し、基礎モデルからアラインメント(整合性)モデルへと至る訓練手順を説明した。最終的な目標は、何度も最適化を重ねたアラインメントモデルの生成である。

さらに、モデル訓練・最適化の過程で基礎モデルの多様性や創造性(異なるスタイルや世界観を含む)をどのように回復・維持するかについての未解決の問題も提起された。

最後に、後処理に関する論文やブログがいくつか紹介された。

OpenAIの元CTOによる新プロジェクト
2人はともにOpenAIの元CTOに引き抜かれた。

John SchulmanとBarret ZophはOpenAIを離れた後、現在何をしているのか。
報道によると、2人はOpenAIの元CTOであるMira Muratiの新しいスタートアップ「Thinking Machines Lab」に参加したようである。
Mira Muratiは2023年9月にOpenAIを退職し、その直後の10月には新会社/AI研究所の設立を進め、1億ドル以上の資金を調達したと報じられた。
MuratiはすでにOpenAI、Google、Anthropicなどの大手企業から20名以上のトップ研究者・エンジニアを引き抜いている。
その中にはJonathan LachmanやBarret Zophも含まれている。

John Schulmanは2023年8月にOpenAIを退職し、まずはOpenAIの競合であるAnthropicに参加し、大規模言語モデル(LLM)のアラインメント研究に従事した。しかし、わずか6か月後にAnthropicを離れ、Muratiの新プロジェクトに参加し、Chief Scientist(最高科学責任者)に就任した。

Barret Zoph は昨年 9 月に Mira Murati とほぼ同時に退職し、その後 Mira Murati のチームに加わり、CTO を務めている。

元記事
https://www.toutiao.com/article/7472932446275748402/