シェア
藤沢 恵
2024年5月28日 18:36
この記事を読んで理由が分った気がしますここで紹介されている研究によると、1層のTransformerモデルで、n桁整数加算の内部動作を詳細に分析するとモデルは課題を桁ごとの並列な処理に分割しているモデルは桁の位置に応じて異なるアルゴリズムを適用しているモデルは特定のまれなケース(9の合計を使うケース)の処理が苦手筆算は、一桁分の計算と繰り上がりさえ覚えれば、「以下、同様に」で、