巨大言語モデル（LLMs）の衝撃

GPT-2を読む⑫議論

前回は、関連研究（Related Work）のセクションを読みました。 GPT-2が既存の研究と比べてどこで一線を画しているか明確するという内容でした。また、「関連研究」セクションが論文の後半に配置されている理由についても触れ、その意図を考察しました。今回は、議論（Discussion）を読み進めます。 GPT-2では、ゼロショット能力の可能性が非常に興味深いのですが、実験の結果によってその限界も浮き彫りになりました。そこで、このセクションではGPT-2が抱える課題や

GPT-2を読む④アプローチ

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」（GPTのバージョン２）の「導入」を読みました。今回は、この論文を読む方針に従って、おそらくこの論文の肝であるセクション「アプローチ」を読み進めます。 GPT-2におけるマルチタスク学習の概念がかなりはっきりしてきます。また、単純にモデルの容量を増やして、膨大なテキストデータを使えば自然と高性能なモデルになるわけでもない

GPT-1を読む⑧実験分析

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション３.３「タスク特有の入力変換」（Task-speciﬁc input transformations）を読み終えました。これで方針としていた「教師なしの事前学習」と「ファインチューニング」などの仕組みを理解するという目的は達成しました。今回は実験の結果とその分析

GPT-1を読む⑦入力変換

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション３.２「教師ありファインチューニング」（Supervised fine-tuning）を読み終えました。これによって、事前学習されたモデルを特定のタスクへと微調整するための目的関数を数学的に理解しました。よって、これまでに、事前学習とファインチューニングの枠組み

GPT-1を読む⑥微調整

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション３.１「教師なし事前学習」（Unsupervised pre-training）を読み終えました。これでGPT-1における事前学習の数学的な枠組みが理解できました。よって、今回はセクション３.２「教師ありファインチューニング」（Supervised fine-t

GPT-1を読む②結論

前回は、要約を読んで論文の主張を理解しました。今回は論文の読み方に従って結論から読み進めていきます。まずは、論文の主張を簡単におさらいしてから、結論がそれをしっかりと肯定しているのか確認していきます。

「教師あり学習」はもう古い？正解データを自動生成できる「自己教師あり学習」を解説します

この記事で学ぶことここ数年、人工知能において以前は鉄板だった「教師あり学習」から「教師なし学習」への大きな流れが見受けられます。特にトランスフォーマーを利用した事前学習を行うBERTなどの影響が大きいですが、そのほかにもGeoffrey HintonらによるContrastive Learningによる事前学習なども注目されています。今回は、これらの事前学習に共通する手法で「教師なし学習」だけど正解データを使う「自己教師あり学習」について解説します。教師なし学習教師な

フォローしませんか？

#教師あり学習