見出し画像

GPT-2を読む③導入

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」(GPTのバージョン2)の構造をざっくり見渡して読むための方針を決めました。

この方針に従って、今回は「導入」から読み進めて、論文の中で言及されている「2つの研究」をめぐる背景をより良く理解することを目指します。


前回のおさらい

前回すでに、導入の始めと終わりを読んでいますが、ここでは記憶を呼び覚ますために、導入の初めの部分を簡単におさらいします。

導入は次のように始まります。

現在の機械学習システムは、大規模なデータセット、高容量のモデル、および教師あり学習を組み合わせることで、訓練されたタスクにおいて期待通りの成果を上げています(Krizhevsky et al., 2012)(Sutskever et al., 2014)(Amodei et al., 2016)。

Machine learning systems now excel (in expectation) at tasks they are trained for by using a combination of large datasets, high-capacity models, and supervised learning (Krizhevsky et al., 2012) (Sutskever et al., 2014) (Amodei et al., 2016).

https://openai.com/index/better-language-models/

ここでは単に、その当時の機械学習は「大規模なデータセット」と「高容量のモデル」と「教師あり学習」を組み合わせることで「期待通りの成果」を挙げていると述べています。

そして、「しかし、」と続きます。

ここから先は

13,951字 / 1画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?