巨大言語モデル（LLMs）の衝撃｜澁谷直樹 @ キカベン

GPT-3を読む⑩モデル評価

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の訓練プロセスについての解説を読みました。今回は、評価（2.4 Evaluation）のセクションを読みます。

GPT-3を読む⑨訓練プロセス

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の訓練データセットについての解説を読みました。今回は、訓練プロセス（2.3 Training Process）のセクションを読みます。

GPT-3を読む⑧訓練データセット

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）のモデル構造についての解説を読みました。今回は、訓練データセット（2.2 Training Dataset）のセクションを読みます。

GPT-3を読む⑦モデル構造

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の「アプローチ」の始まりの部分を読みました。今回は、「モデルとアーキテクチャ」（2.1 Model and Architectures）を読み、モデル構造などがGPT-2からどう変わったのかを理解しましょう。

GPT-3を読む⑥アプローチ

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の「導入」を読み終えました。 OpenAIの研究者たちは、当時としては最も大容量だったマイクロソフトのTuring-NLG（１７０億パラメータ）の10倍の容量（１７５０億パラメータ）を持つGPT-3を事前学習し、「ゼロショット、ワンショット、少数ショット」の設定によって評価することを計画しました。今回は、セクション「２アプローチ

GPT-3を読む⑤導入（その３）

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の「導入」の中盤まで読みました。大容量の言語モデルは事前学習によって、「与えられた指示や例文」の内容から学習（文脈内学習）する能力を得るということが、GPT-2の頃からわかってきました。また、文脈学習をメタ学習の枠組みの中で捉えるという解説もありました。ただし、GPT-2の実験が行われた頃は、メタ学習や文脈学習といった概念は明確

GPT-3を読む④導入（その２）

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の「導入」の前半を読みました。特に、「事前学習＋微調整」の台頭と限界が議論の中心になっていました。どちらかというと問題点が指摘されており、解決のアプローチには触れられていません。また、「メタ学習」や「文脈内学習」といったキーワードもまだ登場していません。では、「導入」の中盤を読み進めていきましょう。

GPT-3を読む③導入（その１）

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の構造をざっくり見渡して読むための方針を決めました。この方針に従って、今回は「導入」を丁寧に読み進めていきます。気になっていた「メタ学習」や「文脈内学習」などといったキーワードを探しながら理解を深めていきましょう。

GPT-3を読む②構造と方針

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の要約と結論を読みました。要約と結論から、いくつかの疑問も湧き起こりました。これから読み進むにつれてその解答合わせもできることを目指しています。今回は、疑問に思っていることなどを踏まえて、どのあたりに注力して読むかを決めます。まずは、論文の全体構造をざっくりと見渡しながら、軽く図や表に触れていきます。ところで、この論文は、GPT

GPT-3を読む①要約と結論

前回までに、GPT-1とGPT-2の論文を読み終えました。今回からGPT-3の論文「Language Models are Few-Shot Learners」（言語モデルは少数ショットの学習者）を読み始めます。前回まで読んできた方なら、これはGPT-2の「ゼロショット」から「少数ショット」へとアプローチを変えたのだと気づくでしょう。また、GPT-1の「ファインチューニング」とどう違うのかも気になるところです。とろこで、この論文の著者リストは以前よりずっと長いです。こ

GPT-2を読む⑫議論

前回は、関連研究（Related Work）のセクションを読みました。 GPT-2が既存の研究と比べてどこで一線を画しているか明確するという内容でした。また、「関連研究」セクションが論文の後半に配置されている理由についても触れ、その意図を考察しました。今回は、議論（Discussion）を読み進めます。 GPT-2では、ゼロショット能力の可能性が非常に興味深いのですが、実験の結果によってその限界も浮き彫りになりました。そこで、このセクションではGPT-2が抱える課題や

GPT-2を読む⑪関連研究

前回は、セクション４「一般化 vs 暗記」を読み終えました。 GPT-2の一般化能力の評価が訓練データにどれほど依存しているのかについて検証されていました。訓練データと各データセットのテストデータにどれほどかの重複があるかをブルーム・フィルターを使って調査した結果を確認する内容でした。これによって、GPT-2のアプローチが正当化されました。つまり、大容量の言語モデルを巨大なデータセットであるWebTextで「教師なし学習」を行うことことは「単なる暗記」ではないということ

GPT-2を読む⑩一般化 vs 暗記（その２）

前回は、セクション４「一般化 vs 暗記」の前半を読みました。 GPT-2は、大容量の言語モデルをWebTextという莫大なコーパスによって教師なし学習したものです。その性能の評価は、WebText以外のデータセットを使ったさまざまなタスクを使って行われました。その実験の内容はこちらで読みました。しかし、容量を増やすことで性能が上がるとは「暗記しているだけ？」ではないかという疑問が残ります。容量を増やして大量のデータを浴びせれば、それだけたくさんの例文パターンを覚えてい

GPT-2を読む⑨一般化 vs 暗記（その１）

前回は、各タスクの結果に関するセクションを読み終えました。 GPT-1の10倍以上の容量（パラメータ数やサイズ）をもつGPT-2のゼロショット能力が向上したのが確認できました。大規模なデータセット（WebText）で学習をしたGPT-2は「教師なしマルチタスク学習者」として、（特定のタスクで訓練されなくとも）様々な自然言語タスクに対応することができ、そのいくつかにおいて優れた性能を発揮しました。この結果は、この論文の要約で主張されていたことを裏付けするものです。しか

巨大言語モデル（LLMs）の衝撃

フォローしませんか？

記事一覧