マガジンのカバー画像

巨大言語モデル(LLMs)の衝撃

57
巨大言語モデル(LLMs)関連の記事を集めました。
運営しているクリエイター

#半教師あり学習

GPT-1を読む⑧実験分析

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション3.3「タスク特有の入力変換」(Task-specific input transformations)を読み終えました。 これで方針としていた「教師なしの事前学習」と「ファインチューニング」などの仕組みを理解するという目的は達成しました。 今回は実験の結果とその分析

GPT-1を読む⑦入力変換

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション3.2「教師ありファインチューニング」(Supervised fine-tuning)を読み終えました。 これによって、事前学習されたモデルを特定のタスクへと微調整するための目的関数を数学的に理解しました。 よって、これまでに、事前学習とファインチューニングの枠組み

GPT-1を読む⑥微調整

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション3.1「教師なし事前学習」(Unsupervised pre-training)を読み終えました。 これでGPT-1における事前学習の数学的な枠組みが理解できました。 よって、今回はセクション3.2「教師ありファインチューニング」(Supervised fine-t

GPT-1を読む③方針

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」の要約と結論を読みました。今回は、論文を構成を掴みながら図や表などに目を通します。まだ、要約や結論を読んでいない方は前回や前々回の記事を参考にしてください。 いつものように今回も、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。どのセクションに注力して