OpenAI さんが論文だしてたのでシュッと読む

2023年6月2日 16:45

Improving mathematical reasoning with process supervision

OpenAI さんがこんな発表してましたね。

We've trained a model to achieve a new state-of-the-art in mathematical problem solving by rewarding each correct step of reasoning (“process supervision”) instead of simply rewarding the correct final answer (“outcome supervision”). In addition to boosting performance relative to outcome supervision, process supervision also has an important alignment benefit: it directly trains the model to produce a chain-of-thought that is endorsed by humans.

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

DeelL 先生に翻訳してもらうとこんな感じ

私たちは、最終的な正解に報酬を与える（「結果監督」）のではなく、推論の各ステップに報酬を与える（「プロセス監督」）ことにより、数学的問題解決における新しい最先端を達成するようモデルを訓練しました。プロセス監視は、結果監視と比較してパフォーマンスを向上させるだけでなく、重要なアライメント上の利点もあります。それは、人間に支持される思考の連鎖を生み出すようにモデルを直接訓練することです。

Translated by DeepL

ほーん？(　ﾟдﾟ)

まぁ言わんとしていることはわかるが駄菓子菓子？

ということで論文をシュッと読んで見たわよ。という話。

要するに？

ふにゃっと要約してみると。

通常学習データって雑にいうと以下のような情報が必要でございますわよねと。

指示
入力
結果
期待する結果
正誤判定

で、この正誤判定っていうのが指示に対する最終結果で判断してるわけなのよね。

で、今回言われているのは

最終結果ではなくて、最終結果に至るまでのプロセスに対してラベル付けして学習データとしたらいいんじゃね？

という感じ。

雑に書くと

指示
入力
出力プロセス
結果
期待する結果
正誤判定

みたいな学習データ用意しようぜ！

みたいな。

でまぁ結果的に数学問題を解く能力があがりましたわ～～～

という感じ。

学習データは公開されているので気になる人は見てみるといいかも

いや、でもこれ学習データつくるの大変じゃね？

Yes, Exactly でございます！！

どっちが大変かな？

入力に対する最終結果にのみで正誤判定をつける
入力に対する最終結果にいたるプロセスすべてにラベルをつける

明らかに後者ですわね

でも性能あがるので頑張るしかないぞ☆

しかしまぁ、論文のなかでも書かれてますが学習データ自体のラベリングは大変なものの、、、一定数を用意してしまえばその後はユーザーからのフィードバックによるアクティブラーニングでより効率化されるのでしんどいのは最初だけよん

みたいな記述がございますわね。

なるほど(*´▽｀*)

しかし、今回数学問題解かせてるけど通常の対話におけるハルシネーションの低減とかアウトプットの質もかなり上がりそうな予感。

LLM って数学問題を実際に計算してるわけじゃない（出力の確率推論のみしてる）はずなので完璧にはならないだろうけどなるほどなぁという内容でございました。

自分で学習データ作るときは頑張って作るかーという感じ。

シュッと書いたのおしまい。