見出し画像

GPT-2を読む⑦実験概要

前回までに、GPT-2の「アプローチ」を読み終えました。

振り返ってみると、モデルの構造に関しては最小限の変更にとどめ、むしろデータの処理方法や入力の表現、そして訓練の手法に重点が置かれていることが分かりました。

GPT-2のアプローチは、トランスフォーマーのデコーダをベースとしたモデル構造を最大限に活用しつつ、膨大なデータを使って大容量のモデルを事前学習させることで、ファインチューニングなしのゼロショットによる評価が可能なモデルを目指す、というものでした。

そして、論文は次に、実際に行われた実験の結果とその評価に焦点を当てたセクション3「実験」へと進みます。

今回は、このセクションの前半を詳しく見ていきます。


ここから先は

11,071字 / 3画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?