ChatGPTの数学精度が一気に上がる論文をOpenAIが発表|Let’s Verify Step by Step
ChatGPTの登場以来、私たちの日々の業務効率は格段に向上しました。
私自身、1日もChatGPTを使用しない日はありません。
それほどまでに、ChatGPTは私たちの仕事や生活に不可欠な存在になっています。
ChatGPTの課題|数学が苦手
GPT-4のリリースにより、その能力は一段と飛躍し、私たちの生活は前例のない変化を遂げてきました。
しかし、そんなChatGPTでも、まだ克服すべき課題が存在します。
それが、数学という領域です。
数学問題は複雑な思考と高度な論理的理解を必要とするため、これまでChatGPTには大きな課題でした。
飛躍的に進化したGPT-4ですら、基礎的な積分の計算を間違えてしまう始末です。
そんなChatGPTですが、先日、OpenAIはChatGPTの数学能力を飛躍的に向上させる可能性を秘めた新たな研究を発表しました。
その名も「Let’s Verify Step by Step」です。
OpenAIが新しい論文"Let’s Verify Step by Step"を発表
概要
OpenAIは数学思考プロセスを以下のように訓練したと発表しました
私たちは、最終的な正解に報酬を与える(「結果監視」)のではなく、推論の各ステップに報酬を与える(「プロセス監視」)ことの方が、高難易度の数学問題を解くにおいては優れていることを発見しました
この過程監視モデルは、MATHデータセットの代表的なサブセットの問題の78%を解決することができました。
監視方法
論文には、このプロセス監視についての例を提示しています
問題:ある分数の分母は分子の 3 倍より 7 小さくなる。この分数が 2 / 5 に相当する場合、分数の分子は何でしょう?
答え:14
画像を見てわかる通り、それぞれのステップに😕😐😎のマークが存在しています。ステップ毎に正しければ、😎が付与されます。
このようにプロセス毎に評価するようにします。
上の例だと、最後の行だけ間違っているので、😕がつけられています
評価としては以下の通りに分けられています
データセット
実際にデータセットを用いて、プロセス監視(PRMs)の精度が高いという結果を出しています。
比較するメソッドはOutcome-supervised Reward Models (ORMs):「結果監視」とProcess-supervised Reward Models (PRMs):「プロセス監視」です。
PRM800Kトレーニングセットには
1.2万個の問題に対する7.5万の解答に対して、80万のステップレベルラベルが含まれています。
実際のPRMとORMの数学の精度の比較はこちら
いずれの結果においても、PRMを用いたモデルが良い結果が出ていることがわかります
数学だけでなく、化学や物理においてもPRMの方が優れた結果を出したと発表しています
結論
ChatGPTの数学的思考力はまだまだ課題が存在しますが、このPRMs(プロセス監視)を利用することで、今まで以上に数学の精度が上がることが期待できます。
大量のデータセットと、この手法を用いることで、より便利になるといいですね
まだこのPRMにも課題は存在しますが、私はこの論文をポジティブに捉えています。
引き続きOpenAIの研究に注視する必要がありそうです。
GithubにPRM800Kのデータセットが公開されているので、興味のある方は下記のリンクから見てみてください
株式会社コルダス:https://coludus.co.jp
この記事が気に入ったらサポートをしてみませんか?