巨大言語モデル（LLMs）の衝撃

GPT-3を読む⑥アプローチ

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の「導入」を読み終えました。 OpenAIの研究者たちは、当時としては最も大容量だったマイクロソフトのTuring-NLG（１７０億パラメータ）の10倍の容量（１７５０億パラメータ）を持つGPT-3を事前学習し、「ゼロショット、ワンショット、少数ショット」の設定によって評価することを計画しました。今回は、セクション「２アプローチ

GPT-3を読む③導入（その１）

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の構造をざっくり見渡して読むための方針を決めました。この方針に従って、今回は「導入」を丁寧に読み進めていきます。気になっていた「メタ学習」や「文脈内学習」などといったキーワードを探しながら理解を深めていきましょう。

GPT-2を読む⑫議論

前回は、関連研究（Related Work）のセクションを読みました。 GPT-2が既存の研究と比べてどこで一線を画しているか明確するという内容でした。また、「関連研究」セクションが論文の後半に配置されている理由についても触れ、その意図を考察しました。今回は、議論（Discussion）を読み進めます。 GPT-2では、ゼロショット能力の可能性が非常に興味深いのですが、実験の結果によってその限界も浮き彫りになりました。そこで、このセクションではGPT-2が抱える課題や

GPT-2を読む⑪関連研究

前回は、セクション４「一般化 vs 暗記」を読み終えました。 GPT-2の一般化能力の評価が訓練データにどれほど依存しているのかについて検証されていました。訓練データと各データセットのテストデータにどれほどかの重複があるかをブルーム・フィルターを使って調査した結果を確認する内容でした。これによって、GPT-2のアプローチが正当化されました。つまり、大容量の言語モデルを巨大なデータセットであるWebTextで「教師なし学習」を行うことことは「単なる暗記」ではないということ

GPT-2を読む③導入

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の構造をざっくり見渡して読むための方針を決めました。この方針に従って、今回は「導入」から読み進めて、論文の中で言及されている「２つの研究」をめぐる背景をより良く理解することを目指します。前回のおさらい前回すでに、導入の始めと終わりを読んでいますが、ここでは記憶を呼び覚ますために、導入の初めの部分

GPT-1を読む⑧実験分析

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション３.３「タスク特有の入力変換」（Task-speciﬁc input transformations）を読み終えました。これで方針としていた「教師なしの事前学習」と「ファインチューニング」などの仕組みを理解するという目的は達成しました。今回は実験の結果とその分析

GPT-1を読む⑦入力変換

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション３.２「教師ありファインチューニング」（Supervised fine-tuning）を読み終えました。これによって、事前学習されたモデルを特定のタスクへと微調整するための目的関数を数学的に理解しました。よって、これまでに、事前学習とファインチューニングの枠組み

GPT-1を読む⑥微調整

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション３.１「教師なし事前学習」（Unsupervised pre-training）を読み終えました。これでGPT-1における事前学習の数学的な枠組みが理解できました。よって、今回はセクション３.２「教師ありファインチューニング」（Supervised fine-t

GPT-1を読む③方針

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」の要約と結論を読みました。今回は、論文を構成を掴みながら図や表などに目を通します。まだ、要約や結論を読んでいない方は前回や前々回の記事を参考にしてください。いつものように今回も、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。どのセクションに注力して

LLaMAとは

LLaMAはMetaが発表した言語モデルです。発表当時はChatGPTなどと比較すると、会話型に特化していたわけでもなく、あまり話題になっていませんでした。ただ、論文で詳細を公開していたり、データセットとしてオープンなものだけを使っていたりと、MetaはOpenAIやGoogleとは異なるスタンスをとっていました。それが、今ではLLaMAこそがChatGPTの強力なライバルとなり得るのではないかと考えるひともいます。大きな変化が起きたのは、LLaMAのモデルの重み

ChatGPTのもとになったInstructGPT

2022年の2月にOpenAIが「人間のフィードバックで指示に従うように言語モデルをトレーニングする」（Training language models to follow instructions with human feedback）という論文で言語モデルInstructGPTを発表しました。これといって大騒ぎになるようなことはありませんでした。しかし、InstructGPTはChatGPTのもとになったモデルであり訓練の仕組みなどは基本的に同じです。また、Inst

GPT-3とは

GPT-3のGPTは、Generative Pre-trained Transformerの略で、3はバージョンを表します。Generative Pre-trained Transformerをあえて訳すとすると「生成的な事前訓練を行なったトランスフォーマー」になります。この記事では、「生成モデル」や「言語モデル」といった用語の解説を通して、GPT-３とは一体何者なのかを解説します。 GPTの進化と発展2018年にGPT-1が登場し、その生成文章のクオリティの高さが評

ファウンデーション（基盤）モデルとは

この記事では米国スタンフォード大学の記事が定義したファウンデーション・モデル（基盤モデル、Foundation Model）というキーワードについて解説します。ファウンデーション・モデルとはファウンデーション・モデルは、広範なデータでトレーニングされたモデルとして定義されます。通常は大規模な自己教師あり学習（Self-Supervised Learning）を行います。つまり、データの一部を隠すなどしてモデルに予測させる訓練をするので、教師あり学習（Supervised

フォローしませんか？

#ファインチューニング