GPT-2を読む⑦実験概要
前回までに、GPT-2の「アプローチ」を読み終えました。
振り返ってみると、モデルの構造に関しては最小限の変更にとどめ、むしろデータの処理方法や入力の表現、そして訓練の手法に重点が置かれていることが分かりました。
GPT-2のアプローチは、トランスフォーマーのデコーダをベースとしたモデル構造を最大限に活用しつつ、膨大なデータを使って大容量のモデルを事前学習させることで、ファインチューニングなしのゼロショットによる評価が可能なモデルを目指す、というものでした。
そして、論文は次に、実際に行われた実験の結果とその評価に焦点を当てたセクション3「実験」へと進みます。
今回は、このセクションの前半を詳しく見ていきます。
この記事が気に入ったらサポートをしてみませんか?