Thinking Tokensが拓くLLMの新たな地平 ― DeepSeek-R1とR1-Zeroの可能性

2025年2月17日 07:26

「はじめに」

近年の大規模言語モデル（LLM）は、大量のパラメータと膨大なデータに基づいた学習によって、高度なテキスト生成や質問応答を実現してきました。しかし、単に学習量やパラメータ数を増やすだけでは克服できない課題も見えてきています。そこで注目されるのが、モデル自身が思考のプロセスを内部で模擬し、その過程を外部へ可視化するという新しいアプローチです。OpenAIが開発したo1モデルは、その一端として「Thinking Tokens」という仕組みを導入し、モデルが推論を行う際の思考過程をはっきりと区別できるようにしました。これにより、モデルがどのように答えを導き出したのかを人間が追跡可能になり、またモデル自身も多くのトークンを生成して“考える”ほど精度や一貫性が増すという、いわゆるtest-time compute scalingという新しい概念が示唆されています。

Thinking Tokensは、チェーン・オブ・ソート（Chain of Thought、以下CoT）の考え方をより発展させたものとして理解できます。CoTの基本的なアイデアは、モデルに対して「途中経過」や「思考手順」をテキストとして生成させることで、内部の推論を明示化し、最終的な回答精度を向上させるというものです。人間が難しい問題を段階的に考えていくように、モデルにも思考ステップを踏ませるのです。これによって、計算資源を多く投入すればするほど推論のステップが増え、深いレベルの検証や追加の情報整理が行われる可能性が高まります。o1モデルでは、この特別なトークンをモデルの学習後に追加することで、推論プロセスを区分けしやすくしていると考えられています。

ただし、o1モデルの詳細な技術的仕組みは一般には公開されていないため、その具体的な学習手順や実装ノウハウについては謎が残ったままでした。そんな中で、DeepSeekという研究機関が新たに発表した「DeepSeek-R1」に関する論文が、このThinking Tokensと高度な推論能力の獲得を詳しく解説しており、学術界や産業界の注目を集めています。特に、DeepSeek-R1とR1-Zeroと呼ばれる2種類のモデルにおいて、強化学習を軸とした思考プロセスの獲得方法が明示された点は大きな価値があります。

R1-Zeroは、いわゆるスーパーバイザード・ファインチューニング（SFT）を行わない純粋な強化学習だけで学習されたモデルであるとされ、実際に思考トークンや長い推論プロセスを自然発生的に身につけたという報告があります。さらに、その後に生み出されたDeepSeek-R1は、SFTとRL（およびRLHF）を融合させる多段階の学習パイプラインを採用し、可読性や安定性を向上させながら高度な推論能力を実現しています。論文内では、これらのモデルがいかにして「考え方」を学習し、推論の正確性を高めているかが具体的に示されており、特にGRPO（Group Relative Policy Optimization）というアルゴリズムの導入が注目を集めています。

本稿では、まずThinking Tokensの起源とCoTの意義をあらためて整理し、その後にR1-Zeroの学習手法や実験的な成果について見ていきます。続いて、DeepSeek-R1がどのように多段階学習を行うことでモデルの実用性を高めているのかを解説し、最終的にはこうした「思考を扱うLLM」の今後の展望を考察していきます。大規模言語モデルが今後さらに進化していく上で、内部推論の可視化や強化学習の積極的な活用が重要になる可能性は高く、それは単にパラメータ数を増やすだけでは達成できない、新たな研究領域の広がりを示唆しています。

「Thinking Tokens と CoT の意義」

Thinking Tokensは、モデルが回答を生成する際に思考過程を挟むための特別なトークンです。チェーン・オブ・ソート（CoT）と呼ばれる考え方に基づいており、モデルが最終解答を一気に出すのではなく、途中にある複数ステップをテキストとして生成しながら推論を進める点に特徴があります。たとえば、数学の問題を解くとき、人間は頭の中で式変形をしたり、途中結果を検証したりしますが、CoTはそれをモデルの生成物として表に出すイメージです。

OpenAIのo1モデルは、このThinking Tokensによって「推論途中のトークン」を明示的に扱い、モデル内部の思考を可視化するとともに、出力の精度を高められることを示しました。これは、従来のLLMが「巨大なパラメータ量を武器にして、入力テキストに最適な続き（あるいは回答）を生成する」という手法とは異なるメリットをもたらします。具体的には、以下のような利点が挙げられます。

途中経過の検証
Thinking Tokensを用いると、モデルは出力を生成する中で途中の計算や推論をテキストとして示すため、その過程自体を再確認したり修正したりする余地が生まれます。人間が紙に下書きや計算メモを取りながら答えをまとめるのに近いイメージです。
長い推論ステップによる精度向上
o1モデルの話題で特に取り上げられたのが「出力トークン数が増えるほど性能が上がる」という現象です。たとえば複雑な数学的問題や論理的思考を要するタスクであっても、Thinking Tokensをふんだんに使って段階的に推論することで、最終的により正確な回答を導くことができます。
学習・解析の容易さ
モデルの中身は本来“ブラックボックス”になりがちですが、Thinking Tokensによってモデル内部の一部をテキストとして取り出すことで、人間がモデルの推論プロセスを解析しやすくなる可能性があります。これは研究者や開発者にとって大きなメリットとなり得ます。

ただし、この仕組みを実現するためには、モデルに対して「こういうトークンで推論の途中を表しなさい」という学習の仕方を教え込む必要があります。つまり、タグのような形で<think>や<answer>などの特別なマークアップを使い、モデルに一貫した形式で考え方を記述するよう促すわけです。単純にテキストを追加すれば良いというものではなく、それを強化学習やファインチューニングで繰り返し与えていくことで、モデルが自然に推論の手順をアウトプットできるようにする工夫が必要です。

DeepSeek研究所は、この仕組みをさらに発展させる形で、R1シリーズを開発しました。まずR1-Zeroというモデルにおいては、リワード（報酬）の設計を工夫し、正確さやフォーマットの適切さなどをスコアとして与えるだけで、モデルが自発的に思考過程をトークンとして生成するようになったのです。これが、モデルにおけるCoTの自然発生的な進化として非常に注目されました。

Thinking TokensとCoTの意義は、今後のLLM研究において「ただ巨大なパラメータモデルを作るのではなく、どのようにモデルが内部で推論を組み立てるか」を探求する新たな道を示しています。推論プロセスが明確化されると、その改善や制御、さらには安全性の確保の観点でも大きなメリットが期待できます。さらに、推論の過程でモデルが参照した推定や計算を訂正・再検証できるようになることで、誤情報を減らす方向性にも寄与する可能性があります。

「R1-Zero: 強化学習のみで進化する思考プロセス」

DeepSeekの論文によると、R1-Zeroというモデルはスーパーバイザード・ファインチューニング（SFT）を一切使わずに強化学習（RL）のみで学習を行った点が大きな特徴です。多くのLLMは、まず大規模データで事前学習（プリトレーニング）した後に、SFTやRLHF（人間のフィードバックを利用した強化学習）などを組み合わせて実用レベルのアシスタントへ仕上げていきます。しかしR1-Zeroの場合、あえてSFTをせず、純粋に強化学習だけでモデルが思考プロセスを獲得し得るかどうかを検証したのです。

このアプローチの中核となるのが、テンプレートと報酬設計、それにGRPO（Group Relative Policy Optimization）と呼ばれる特定の最適化アルゴリズムです。テンプレートとしては、モデル出力の中に<think>や<answer>といったタグを挟むように指示し、「一旦考えを<think>内に書き、その後<answer>で最終回答を出す」という形式を与えました。驚くべきことに、この単純なテンプレートと報酬スキームだけで、モデルは「推論時にたくさんのトークンを使って考えるほど結果が良くなる」という行動を自発的に身につけたといいます。

報酬設計では、まず「回答の正確性」が最優先であり、それに加えて「フォーマットやタグの正しさ」といったチェックが行われます。たとえば数学問題なら、回答が正解に近ければ高い報酬が与えられ、不正解やフォーマット破損の場合は報酬が低下する仕組みです。また、GRPOは、複数の生成候補をまとめて評価・最適化することで、比較的安定した学習を実現します。従来のPPO（Proximal Policy Optimization）に類似する部分はありつつも、集団的に比較することを取り入れた点で独自性があるようです。

こうして学習されたR1-Zeroは、思考トークンの生成を誰にも教えられずに“勝手に”獲得しただけでなく、その途中経過を検証しようとするような長い理由づけステップを使う傾向が見られました。論文中の例では、数学問題を解く際に途中計算を明示し、さらに答えが出た後で別の観点から検算するような内容が<think>内に書かれていたのです。これはまるで人間が自力で学ぶような学習の仕方に近く、とても興味深い現象だと報告されています。

ただし、このR1-Zeroには欠点もありました。一つは、思考途中の記述が人間には読みにくい形で表現されるケースが多かったことです。推論の過程で、言語が混在したり、数式が散乱したりすることがあり、それが実用に供するには難があるという指摘です。また、常に思考ステップを出力するわけではなく、短い回答を求められた時でも余計に考えすぎる場合があるなど、使い勝手の面で問題が残りました。

とはいえ、SFTを用いずにRLだけで長い推論プロセスを生み出し、テスト時に「思考すればするほど回答が向上する」という特性を導き出したのは大きな成果です。これによって、大規模データのラベル付けや手動で作成したCoT例がなくても、モデルが自発的に「考え方」を学ぶ余地があることが示唆されました。このR1-Zeroの実験結果が、のちにDeepSeek-R1を設計する上で重要なベースとなります。

「DeepSeek-R1: SFTとRLが融合した多段階学習」

R1-Zeroの欠点を補い、実用面や可読性を高めたモデルがDeepSeek-R1です。こちらは多段階の学習プロセスを踏んでおり、まずベースとなるモデルに対してSFTを行い、その後に強化学習を重ねるという構成をとっています。その大まかな流れは下記のように整理されています。

SFT（初期段階）
最初に、すでに事前学習されたLLMに対して、チェーン・オブ・ソートを含む膨大な例をスーパーバイザード方式で与えます。ここでは<think>や<answer>といった形式を明示的に示し、モデルがそれに従った出力を生成できるよう指導するステップです。これによって、R1-Zeroで見られたような読みにくい混在言語やフォーマットの乱れを抑える下地が作られます。
R1-ZeroスタイルのRL（中間段階）
次に、R1-Zeroと同様の報酬設計やテンプレートを使った強化学習を行います。モデルはSFTですでにある程度の“まとまった思考プロセス”を学んでいるため、RLのみでゼロから学習するよりも安定して推論を洗練させられると考えられます。さらに、ここで言語の一貫性や形式面を保つための追加報酬も付与されるように調整され、思考ステップが過剰に混在するケースを減らそうとしています。
SFT（再度調整）
RLで学習したモデルは、推論能力こそ高まりますが、依然として「何にでも長いCoTを生成する」「思考プロセスが不要なタスクでも余計な手順を出力しがち」といった問題が残ることがあります。そこで再度SFTを行い、回答が簡潔でよい場合と、緻密な推論が必要な場合を使い分けられるよう多彩な例を与えます。このステップでは、必要に応じて回答のみを出す例や、評価用のラベルとモデルの出力を比較するプロセスも含まれています。
RLHF（最終仕上げ）
最後に、人間のフィードバックを活用するRLHFを行い、モデルの有用性や安全性を向上させます。ここでは思考プロセスの質だけでなく、実際のユーザーとのインタラクションで有益かどうかが重視されます。実際のユーザーが読んで理解できる推論を適切な長さで行うことや、不適切な内容を除外する能力などが評価対象となります。

このように、DeepSeek-R1ではSFTとRLを段階的に組み合わせることで、R1-Zeroに見られた欠点を大幅に補った上で、複雑な推論が求められるタスクにも柔軟に対応できるモデルを実現しているのです。特筆すべきは、R1-Zeroスタイルの強化学習により長いCoTを生み出す能力を引き継ぎつつ、その思考トークンを見やすく統制し、しかも不要な場面では簡潔な回答へ切り替えられるよう調整した点です。

また、複数の学習ステップを経由したデータづくりにも工夫があります。RLステップでモデルが生成した膨大な思考プロセス付きデータを再度SFTに使うことで、より多様な思考例をモデルに与えられます。さらに、強化学習によって得られた「言語の整合性報酬」や「正解との距離を測る報酬」を微調整しつつ学習を繰り返すことで、モデルが過度な冗長性に陥るのを防ぎながら推論能力を引き上げることを可能にしているのです。

結果として、DeepSeek-R1はR1-Zeroに比べて人間が読み取れる推論プロセスを維持しつつも、非常に高精度の回答を得られるモデルへと仕上がっています。研究者らは論文内で、思考トークンを通じて「モデルがどのような推論ステップを踏んだのかを観察することで、誤りが生じた場合の原因解析が容易になる」と述べており、この点が企業での実用化においても高く評価されているといいます。

「今後の展望とまとめ」

DeepSeek-R1やo1モデルのように、Thinking Tokensを中心としたアプローチが今後のLLM研究をどのようにリードしていくのかは、大きな興味の的となっています。これまでのLLMは、大規模なデータとパラメータを使い、膨大な事前学習を行うことがメインの発展方向でした。しかし、モデルが自分で「考える」ステップを明示的に扱い、それを出力にも反映するという試みは、単なるスケールアップとは別次元の進化をもたらします。

1. モデルの自律的進化
強化学習の手法を取り入れることで、モデルが自力で試行錯誤を行い、思考ステップを洗練させていく余地が高まりました。特にR1-Zeroのように、最低限のテンプレートと報酬設計だけでモデルが複雑な推論戦略を獲得する例は、将来的に人間の手間を大幅に減らす可能性を示唆しています。

2. 説明可能性と安全性
Thinking Tokensによってモデル内部の思考プロセスがある程度可視化されると、どこで誤りが入ったのかをトレースできるようになります。これは、誤情報の拡散や倫理的問題に対する監査メカニズムとしても機能する可能性があります。モデルが何かしらの判断を下すとき、その根拠や途中の見解を確認できるのは、多くの産業応用で重要視されるポイントです。

3. 多様なタスクへの応用
DeepSeek-R1が長い数式処理や論理パズルの回答に威力を発揮するように、Thinking Tokensを活用したモデルは、複雑なドメイン知識や推論が必要とされるシナリオで大きな効果を見込めます。医療・法律・金融などで、慎重な検証ステップを踏みながら結論を導く必要があるタスクへの適用も広がると考えられます。

4. スケーラビリティとメモリ
CoTやThinking Tokensは、文字数や計算ステップを増やすことで性能を伸ばす面がある反面、当然ながら生成されるテキスト量が膨大になる可能性があります。こうした“長い出力”を取り扱うときに必要となるメモリや速度への影響が問題化する可能性もあるでしょう。効率的な圧縮表現やオンデマンドな生成・検証手法の研究が、次なる課題となりそうです。

最終的に、Thinking TokensやDeepSeek-R1が示唆するのは、LLMが単に知識を詰め込むだけでなく、自ら考え、推論し、その過程を人間にとって理解しやすい形で提示する時代が近づいているということです。従来の“ブラックボックス”なモデルから一歩進み、モデル内部の推論構造を能動的に活用できるようになると、学問的にも社会的にも大きなインパクトが生まれるでしょう。

DeepSeekの論文は、o1モデルでの成果を後追いする形である一方、その手法をオープンにし、実験再現を可能にした点で評価が高いといえます。今後は、さらに多くの研究機関や企業がこうしたThinking Tokensスタイルの学習手法を試みることで、さまざまな最適化アルゴリズムや新しい応用事例が登場すると考えられます。長期的には、モデル自身が未踏の問題を解決し、人間が理解しやすい形で新知識を提示するような未来が待っているのかもしれません。

いいなと思ったら応援しよう！

この記事を最後まで読んでくださり、ありがとうございます。少しでも役に立ったり、楽しんでいただけたなら、とても嬉しいです。もしよろしければ、サポートを通じてご支援いただけると、新たなコンテンツの制作や専門家への取材、さらに深いリサーチ活動に充てることができます。