OpenAI さんが論文だしてたのでシュッと読む
Improving mathematical reasoning with process supervision
OpenAI さんがこんな発表してましたね。
DeelL 先生に翻訳してもらうとこんな感じ
ほーん?( ゚д゚)
まぁ言わんとしていることはわかるが駄菓子菓子?
ということで論文をシュッと読んで見たわよ。という話。
要するに?
ふにゃっと要約してみると。
通常学習データって雑にいうと以下のような情報が必要でございますわよねと。
指示
入力
結果
期待する結果
正誤判定
で、この正誤判定っていうのが指示に対する最終結果で判断してるわけなのよね。
で、今回言われているのは
最終結果ではなくて、最終結果に至るまでのプロセスに対してラベル付けして学習データとしたらいいんじゃね?
という感じ。
雑に書くと
指示
入力
出力プロセス
結果
期待する結果
正誤判定
みたいな学習データ用意しようぜ!
みたいな。
でまぁ結果的に数学問題を解く能力があがりましたわ~~~
という感じ。
学習データは公開されているので気になる人は見てみるといいかも
いや、でもこれ学習データつくるの大変じゃね?
Yes, Exactly でございます!!
どっちが大変かな?
入力に対する最終結果にのみで正誤判定をつける
入力に対する最終結果にいたるプロセスすべてにラベルをつける
明らかに後者ですわね
でも性能あがるので頑張るしかないぞ☆
しかしまぁ、論文のなかでも書かれてますが学習データ自体のラベリングは大変なものの、、、一定数を用意してしまえばその後はユーザーからのフィードバックによるアクティブラーニングでより効率化されるのでしんどいのは最初だけよん
みたいな記述がございますわね。
なるほど(*´▽`*)
しかし、今回数学問題解かせてるけど通常の対話におけるハルシネーションの低減とかアウトプットの質もかなり上がりそうな予感。
LLM って数学問題を実際に計算してるわけじゃない(出力の確率推論のみしてる)はずなので完璧にはならないだろうけどなるほどなぁという内容でございました。
自分で学習データ作るときは頑張って作るかーという感じ。
シュッと書いたのおしまい。