GPT-2を読む③導入

2024年7月27日 16:27

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の構造をざっくり見渡して読むための方針を決めました。

この方針に従って、今回は「導入」から読み進めて、論文の中で言及されている「２つの研究」をめぐる背景をより良く理解することを目指します。

前回のおさらい

前回すでに、導入の始めと終わりを読んでいますが、ここでは記憶を呼び覚ますために、導入の初めの部分を簡単におさらいします。

導入は次のように始まります。

現在の機械学習システムは、大規模なデータセット、高容量のモデル、および教師あり学習を組み合わせることで、訓練されたタスクにおいて期待通りの成果を上げています（Krizhevsky et al., 2012）（Sutskever et al., 2014）（Amodei et al., 2016）。

Machine learning systems now excel (in expectation) at tasks they are trained for by using a combination of large datasets, high-capacity models, and supervised learning (Krizhevsky et al., 2012) (Sutskever et al., 2014) (Amodei et al., 2016).

https://openai.com/index/better-language-models/

ここでは単に、その当時の機械学習は「大規模なデータセット」と「高容量のモデル」と「教師あり学習」を組み合わせることで「期待通りの成果」を挙げていると述べています。

そして、「しかし、」と続きます。

ここから先は

13,951字 / 1画像

キカベン・読み放題

¥1,000 / 月

初月無料

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

すべての記事とマガジンが読み放題
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？