マガジンのカバー画像

巨大言語モデル(LLMs)の衝撃

57
巨大言語モデル(LLMs)関連の記事を集めました。
運営しているクリエイター

#教師なし学習

GPT-2を読む⑫議論

前回は、関連研究(Related Work)のセクションを読みました。 GPT-2が既存の研究と比べてどこで一線を画しているか明確するという内容でした。また、「関連研究」セクションが論文の後半に配置されている理由についても触れ、その意図を考察しました。 今回は、議論(Discussion)を読み進めます。 GPT-2では、ゼロショット能力の可能性が非常に興味深いのですが、実験の結果によってその限界も浮き彫りになりました。そこで、このセクションではGPT-2が抱える課題や

GPT-2を読む④アプローチ

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」(GPTのバージョン2)の「導入」を読みました。 今回は、この論文を読む方針に従って、おそらくこの論文の肝であるセクション「アプローチ」を読み進めます。 GPT-2におけるマルチタスク学習の概念がかなりはっきりしてきます。また、単純にモデルの容量を増やして、膨大なテキストデータを使えば自然と高性能なモデルになるわけでもない

GPT-2を読む②構造と方針

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」(GPTのバージョン2)の要約と結論を読みました。 要約と結論から、いくつかの疑問も湧き起こりました。これから読み進むにつれてその解答合わせもできることを目指しています。 さて今回は、疑問に思っていることなどを踏まえて、どのあたりに注力して読むかを決めます。まずは、論文の全体構造をざっと見回して、軽く図や表に触れていきます

GPT-1を読む⑧実験分析

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション3.3「タスク特有の入力変換」(Task-specific input transformations)を読み終えました。 これで方針としていた「教師なしの事前学習」と「ファインチューニング」などの仕組みを理解するという目的は達成しました。 今回は実験の結果とその分析

GPT-1を読む⑦入力変換

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション3.2「教師ありファインチューニング」(Supervised fine-tuning)を読み終えました。 これによって、事前学習されたモデルを特定のタスクへと微調整するための目的関数を数学的に理解しました。 よって、これまでに、事前学習とファインチューニングの枠組み

GPT-1を読む⑥微調整

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」のセクション3.1「教師なし事前学習」(Unsupervised pre-training)を読み終えました。 これでGPT-1における事前学習の数学的な枠組みが理解できました。 よって、今回はセクション3.2「教師ありファインチューニング」(Supervised fine-t

GPT-1を読む⑤事前2

前回は、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」の「3 Framework」(セクション3「フレームワーク」)を読み始めました。 特に、セクション3.1「教師なしの事前学習」で登場する目的関数を中心に解説しました。今回は、この続きで登場するトランスフォーマーのデコーダなどを中心に読み進めていきます。 ここでやっと下図の左側の仕組

GPT-1を読む③方針

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」の要約と結論を読みました。今回は、論文を構成を掴みながら図や表などに目を通します。まだ、要約や結論を読んでいない方は前回や前々回の記事を参考にしてください。 いつものように今回も、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。どのセクションに注力して

GPT-1を読む②結論

前回は、要約を読んで論文の主張を理解しました。今回は論文の読み方に従って結論から読み進めていきます。 まずは、論文の主張を簡単におさらいしてから、結論がそれをしっかりと肯定しているのか確認していきます。

「教師あり学習」はもう古い?正解データを自動生成できる「自己教師あり学習」を解説します

この記事で学ぶことここ数年、人工知能において以前は鉄板だった「教師あり学習」から「教師なし学習」への大きな流れが見受けられます。特にトランスフォーマーを利用した事前学習を行うBERTなどの影響が大きいですが、そのほかにもGeoffrey HintonらによるContrastive Learningによる事前学習なども注目されています。 今回は、これらの事前学習に共通する手法で「教師なし学習」だけど正解データを使う「自己教師あり学習」について解説します。 教師なし学習教師な