松尾研サマースクール2023「大規模言語モデル講座」のコンテンツが無償公開されました!

2023/12/27(水)の夕方に表題のニュースが飛び込んできました!URLはこちらです。
https://weblab.t.u-tokyo.ac.jp/llm_contents/
内容はマジ絶賛。最高。ご飯30杯行けます!

全体の概要は以下の通りです。

Day1は「LLMの概況」

以下、学ぶ内容をざっと。

言語モデルは、単語の系列の生成確率を割り当てる確率モデルです。言語モデルの中でも、現在メジャーな大規模言語モデル(LLM)の多くが自己回帰言語モデル(Autoregressive Language Model)であることを学び、その実現手段としての(RNN, CNN, )Transformerについて概要を学びます。そして、なぜいま言語モデルを我々が学ぶ必要があるのかを、Scaling則およびEmergent Ability、Prompting/In-Context Learningによる汎用性、他領域への影響の3つの観点から確認しています。

また、最後に日本のLLMを取り巻く環境と、今後必要となる施策について確認しています。日本の大規模言語モデル、データ、計算環境、評価タスク整備状況を、海外を比較しながら振り返ると、全体として後塵を喫しているとのこと。この危機意識から、日本発LLMの開発を進めるために、大規模な学習データ、大規模なモデル、大規模な計算環境が必要であり、今後取り組みを進めていく必要があると締めています。

Day2は「学習済みLLMの性能を引き出す手法」

この講座は全体として、「LLMを学習させる3ステップ」と「学習済みLLMの性能を引き出す手法」の両方を学べるよう構成されているのですが、学ぶ順序は逆になっています。この順序もとてもいいですね!

Day2では、まず先に、「学習済みLLMの性能を引き出す手法」としてのPrompting(In-Context Learning)とAugmented LMを学びます。

Day3、Day5、Day6で「LLMを学習させる3ステップ」とを学ぶ

Day3では最初のステップである事前学習を、Day5では2番目のステップであるファインチューニングを、Day6で最後のステップであるRLHFを学びます。

Day4は「LLMのスケーリング」について

LLMの学習におけるスケーリングの重要性の大きさから、LLMをスケールさせるために、パラメータ、計算量、データをスケールさせる際の課題と対応方法について学びます。

Day7は「最新動向」

LLMの最前線を知る機会として、研究者の方の講演を頂いており、その一端を資料から垣間見ることができます。

この記事が気に入ったらサポートをしてみませんか?