マガジンのカバー画像

巨大言語モデル(LLMs)の衝撃

57
巨大言語モデル(LLMs)関連の記事を集めました。
運営しているクリエイター

#ゼロショット学習

GPT-3を読む⑥アプローチ

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」を読み終えました。 OpenAIの研究者たちは、当時としては最も大容量だったマイクロソフトのTuring-NLG(170億パラメータ)の10倍の容量(1750億パラメータ)を持つGPT-3を事前学習し、「ゼロショット、ワンショット、少数ショット」の設定によって評価することを計画しました。 今回は、セクション「2 アプローチ

GPT-3を読む②構造と方針

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の要約と結論を読みました。 要約と結論から、いくつかの疑問も湧き起こりました。これから読み進むにつれてその解答合わせもできることを目指しています。 今回は、疑問に思っていることなどを踏まえて、どのあたりに注力して読むかを決めます。まずは、論文の全体構造をざっくりと見渡しながら、軽く図や表に触れていきます。 ところで、この論文は、GPT

GPT-3を読む①要約と結論

前回までに、GPT-1とGPT-2の論文を読み終えました。今回からGPT-3の論文「Language Models are Few-Shot Learners」(言語モデルは少数ショットの学習者)を読み始めます。 前回まで読んできた方なら、これはGPT-2の「ゼロショット」から「少数ショット」へとアプローチを変えたのだと気づくでしょう。また、GPT-1の「ファインチューニング」とどう違うのかも気になるところです。 とろこで、この論文の著者リストは以前よりずっと長いです。こ

GPT-2を読む⑧各タスクの結果

前回までに、GPT-2の「実験」のセクションの前半を読み、実験の設定などの概要を理解しました。 今回は、「実験」の続きを読んで、各タスクの結果を確認します。 さて、GPT-2の論文のタイトルは「Language Models are Unsupervised Multitask Learners」であり、日本語にするならば「言語モデルは教師なしマルチタスク学習者」でした。 このタイトルが意味するのは、(大容量の)言語モデルに対して教師なし学習を行うことで、ファインチュー

GPT-2を読む③導入

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」(GPTのバージョン2)の構造をざっくり見渡して読むための方針を決めました。 この方針に従って、今回は「導入」から読み進めて、論文の中で言及されている「2つの研究」をめぐる背景をより良く理解することを目指します。 前回のおさらい前回すでに、導入の始めと終わりを読んでいますが、ここでは記憶を呼び覚ますために、導入の初めの部分