GPT-3を読む⑤導入(その3)
前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」の中盤まで読みました。
大容量の言語モデルは事前学習によって、「与えられた指示や例文」の内容から学習(文脈内学習)する能力を得るということが、GPT-2の頃からわかってきました。また、文脈学習をメタ学習の枠組みの中で捉えるという解説もありました。
ただし、GPT-2の実験が行われた頃は、メタ学習や文脈学習といった概念は明確化されていませんでした。また、GPT-2では「例文を与える言語タスク」において、
「事前学習+ファインチューニング」にはるかに劣る結果しか達成しませんでした。よって、研究の方向性としてはどうなのかという疑問が残っていました。
一方で、GPT-2以後にさまざまな企業や研究者による言語モデルの大容量化が進み、モデルの容量と性能の向上を結びつけて一種の法則と捉えるスケール則が、言語モデルの性能を向上させる一つの指針となっていました。
そこで、OpenAIの研究者たちは、当時としては最も大容量だったマイクロソフトのTuring-NLGの10倍の容量を持つGPT-3を事前学習し、「ゼロショット、ワンショット、少数ショット」によって評価することを計画しました。
GPT-1 : 1億パラメータ(OpenAI)
BERT : 3億パラメータ(Google)
GPT-2 : 15億パラメータ(OpenAI)
Megatron-LM: 80億パラメータ(NVIDIA)
T5 : 110億パラメータ(Google)
Turing-NLG : 170億パラメータ(Microsoft)
GPT-3 :1750億パラメータ(OpenAI)
この論文の「導入」の残りの部分では、GPT-3の実験の結果の概要が述べられています。また、OpenAIの研究者による社会全体への影響などについても触れられています。
今回をこれらを読み進めます。
この記事が気に入ったらチップで応援してみませんか?