巨大言語モデル（LLMs）の衝撃

GPT-2を読む⑫議論

前回は、関連研究（Related Work）のセクションを読みました。 GPT-2が既存の研究と比べてどこで一線を画しているか明確するという内容でした。また、「関連研究」セクションが論文の後半に配置されている理由についても触れ、その意図を考察しました。今回は、議論（Discussion）を読み進めます。 GPT-2では、ゼロショット能力の可能性が非常に興味深いのですが、実験の結果によってその限界も浮き彫りになりました。そこで、このセクションではGPT-2が抱える課題や

GPT-2を読む⑪関連研究

前回は、セクション４「一般化 vs 暗記」を読み終えました。 GPT-2の一般化能力の評価が訓練データにどれほど依存しているのかについて検証されていました。訓練データと各データセットのテストデータにどれほどかの重複があるかをブルーム・フィルターを使って調査した結果を確認する内容でした。これによって、GPT-2のアプローチが正当化されました。つまり、大容量の言語モデルを巨大なデータセットであるWebTextで「教師なし学習」を行うことことは「単なる暗記」ではないということ

GPT-2を読む⑩一般化 vs 暗記（その２）

前回は、セクション４「一般化 vs 暗記」の前半を読みました。 GPT-2は、大容量の言語モデルをWebTextという莫大なコーパスによって教師なし学習したものです。その性能の評価は、WebText以外のデータセットを使ったさまざまなタスクを使って行われました。その実験の内容はこちらで読みました。しかし、容量を増やすことで性能が上がるとは「暗記しているだけ？」ではないかという疑問が残ります。容量を増やして大量のデータを浴びせれば、それだけたくさんの例文パターンを覚えてい

GPT-2を読む⑨一般化 vs 暗記（その１）

前回は、各タスクの結果に関するセクションを読み終えました。 GPT-1の10倍以上の容量（パラメータ数やサイズ）をもつGPT-2のゼロショット能力が向上したのが確認できました。大規模なデータセット（WebText）で学習をしたGPT-2は「教師なしマルチタスク学習者」として、（特定のタスクで訓練されなくとも）様々な自然言語タスクに対応することができ、そのいくつかにおいて優れた性能を発揮しました。この結果は、この論文の要約で主張されていたことを裏付けするものです。しか

GPT-2を読む⑧各タスクの結果

前回までに、GPT-２の「実験」のセクションの前半を読み、実験の設定などの概要を理解しました。今回は、「実験」の続きを読んで、各タスクの結果を確認します。さて、GPT-2の論文のタイトルは「Language Models are Unsupervised Multitask Learners」であり、日本語にするならば「言語モデルは教師なしマルチタスク学習者」でした。このタイトルが意味するのは、（大容量の）言語モデルに対して教師なし学習を行うことで、ファインチュー

GPT-2を読む⑦実験概要

前回までに、GPT-２の「アプローチ」を読み終えました。振り返ってみると、モデルの構造に関しては最小限の変更にとどめ、むしろデータの処理方法や入力の表現、そして訓練の手法に重点が置かれていることが分かりました。 GPT-2のアプローチは、トランスフォーマーのデコーダをベースとしたモデル構造を最大限に活用しつつ、膨大なデータを使って大容量のモデルを事前学習させることで、ファインチューニングなしのゼロショットによる評価が可能なモデルを目指す、というものでした。そして、論

GPT-2を読む⑥入力表現

前回に引き続き、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の「アプローチ」を読み進めます。前回に読んだ部分では、タスクに依存しない方法でより品質の高い訓練データセットを集める方法が解説されていました。ただ単にWebから莫大なテキストを収集するだけではなく、良質なデータを収集することがGPT-2の学習において重要であり、そのための工夫が語られてい

GPT-2を読む⑤訓練データセット

前回に引き続き、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の「アプローチ」を読み進めます。 GPT-2のアプローチの概要は分かりましたが、具体的にどのように訓練データセットを準備するのかがまだはっきりとしていません。

GPT-2を読む④アプローチ

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の「導入」を読みました。今回は、この論文を読む方針に従って、おそらくこの論文の肝であるセクション「アプローチ」を読み進めます。 GPT-2におけるマルチタスク学習の概念がかなりはっきりしてきます。また、単純にモデルの容量を増やして、膨大なテキストデータを使えば自然と高性能なモデルになるわけでもない

GPT-2を読む③導入

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の構造をざっくり見渡して読むための方針を決めました。この方針に従って、今回は「導入」から読み進めて、論文の中で言及されている「２つの研究」をめぐる背景をより良く理解することを目指します。前回のおさらい前回すでに、導入の始めと終わりを読んでいますが、ここでは記憶を呼び覚ますために、導入の初めの部分

GPT-2を読む②構造と方針

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の要約と結論を読みました。要約と結論から、いくつかの疑問も湧き起こりました。これから読み進むにつれてその解答合わせもできることを目指しています。さて今回は、疑問に思っていることなどを踏まえて、どのあたりに注力して読むかを決めます。まずは、論文の全体構造をざっと見回して、軽く図や表に触れていきます

GPT-2を読む①要約と結論

前回までに、GPT-1を読み終えました。今回から、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」を読んでいきます。これは、GPTのバージョン２の論文です。バージョン１の翌年に発表されたこの論文の著者の中には、以前同様にIlya Sutskeverの名があります。彼は2012年にImageNetのコンペで優勝しディープラーニングを一躍有名にしたAlexNet の論文の著者の一人

NumPyを使ったGPT-2の不必要に小さな実装

Twitterで「NumPyを使ったGPT-2の不必要に小さな実装」といったツイートを何度か見かけたのでちょっと調べてみました。なんと60行ほどでGPT-2を実装したリポジトリとブログ記事があったのですが、GPTの本質をついているのでここで解説します。 import numpy as npdef gelu(x): return 0.5 * x * (1 + np.tanh(np.sqrt(2 / np.pi) * (x + 0.044715 * x**3)))def

フォローしませんか？

#gpt2