LLMと算術計算
サイバーエージェントの最新LLMをGoogle Colaboで実行してみる
回答:
あなたの答えは「25738019751499726022865972716」です。
….間違い。
高性能と話題のKARAKURI LMのチャットボットで足し算を聞いてみた
絶望的。
ChatGPT4に聞くと
正解。
ChatGPT4の応答をよく観察してみると、上の質問に対して「Analyzing…」という処理が走り、その後、答えがでてくる。
つまり、入力文が数式っぽいと判断したら、算術計算専用のタスクを起動して演算させてるように見える。質問文からプログラムを生成してその場で実行してるのかな。
いずれにせよ単純な足し算にも専用の「計算タスク」が必要で、大量の文書データセットの学習だけでは、算数能力は決して自然発生しないように見える。
算術対策をしていない言語モデルの解答は、学習データの中に類似の数学問題が含まれていて(例えばQ&Aサイトの質問とか参考書・問題集サイトの大量の設問・解答とか)、偶然、正答しているだけかもしれない。
巨大な桁の足し算という、決して学習データには現れてないだろう問題が、壊滅的に解けてない。設問自体に解釈の余地がないにもかかわらず。
そこでこう問いたい:
1)このように大きな桁の足し算をLLMが間違う「理由」は何だろうか
2)大きな足し算に正答するLLMと誤答するLLMがあるとするなら、その違いはどこから来るのだろうか(学習データセット、パラメータ規模、アーキテクチャ どれが一番作用しているか) 明確な境界線がどこかにあるだろうか。
学習データセットを除々に減らしていくと、どこか時点で非連続的に算術能力が失われる点が存在するだろうか。
3)そもそも人はどのようにして、基本的な算術から大きな桁の加算をマスタするのだろうか
4)一部の人はどのようにして、大きな桁の計算を、一瞬で解くのだろうか(そろばんの暗算高段者の人みたいに)
この記事が気に入ったらサポートをしてみませんか?