東大松尾・岩澤研のGENIAC記事が面白い 6 藤沢 恵 2024年5月28日 21:21 Team「たぬき」開発振り返りメモ3: 10bクラスの大規模言語モデルを実際に開発して想定外だったこと5選 zenn.dev 我々は英語学習データとして、学術論文、コード、Wikipediaなど、質の高い文章を大量に集めました。特に数学の論文もたくさん含まれていたので、ある程度は数式が扱えるモデルが出来上がるだろうと期待していました。ところが蓋を開けてみると、モデルは1+1はできるものの、1+2+3などの簡単な足し算すら満足にこなせませんでした。この結果には、さすがに落胆を禁じ得ませんでした。どうやら、論文を読ませるだけでは数学的な能力は身につかないようです。四則演算をマスターさせるには、もっと特化した演習用のデータセットを用意する必要があるのかもしれません。特化した演算用のデータセットを用意しても、四則演算できるようにはなりませんよ、と教えてあげたい。学習データの問題でなく原理の問題だというのは明かだと思われます ダウンロード copy いいなと思ったら応援しよう! チップで応援する #LLM #大規模言語モデル 6