人気の記事一覧

【論文瞬読】深層学習モデルの『遅効学習』の謎に迫る - Grokkingの新たな発見

6か月前

松尾研サマースクール2023「大規模言語モデル講座」のコンテンツが無償公開されました!

1年前

実験ノート:o3-miniの試行(2):層(sheaf)の概念とマルチエージェントの理論の整理、複数LLMで比較、DeepSeek-R1(US)は「Grokkingを層構造の相転移として定式化」、o1は「創発的な知能現象」の展望を開陳、DSR1本家は「新しい幾何学」を展望

Iteration Head: A Mechanistic Study of Chain-of-Thought

8か月前