マガジンのカバー画像

巨大言語モデル(LLMs)の衝撃

57
巨大言語モデル(LLMs)関連の記事を集めました。
運営しているクリエイター

#ゼロショット

GPT-3を読む⑥アプローチ

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」を読み終えました。 OpenAIの研究者たちは、当時としては最も大容量だったマイクロソフトのTuring-NLG(170億パラメータ)の10倍の容量(1750億パラメータ)を持つGPT-3を事前学習し、「ゼロショット、ワンショット、少数ショット」の設定によって評価することを計画しました。 今回は、セクション「2 アプローチ

GPT-3を読む⑤導入(その3)

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」の中盤まで読みました。 大容量の言語モデルは事前学習によって、「与えられた指示や例文」の内容から学習(文脈内学習)する能力を得るということが、GPT-2の頃からわかってきました。また、文脈学習をメタ学習の枠組みの中で捉えるという解説もありました。 ただし、GPT-2の実験が行われた頃は、メタ学習や文脈学習といった概念は明確

GPT-2を読む⑧各タスクの結果

前回までに、GPT-2の「実験」のセクションの前半を読み、実験の設定などの概要を理解しました。 今回は、「実験」の続きを読んで、各タスクの結果を確認します。 さて、GPT-2の論文のタイトルは「Language Models are Unsupervised Multitask Learners」であり、日本語にするならば「言語モデルは教師なしマルチタスク学習者」でした。 このタイトルが意味するのは、(大容量の)言語モデルに対して教師なし学習を行うことで、ファインチュー

GPT-2を読む②構造と方針

前回は、OpenAIが2019年に発表した論文「Language Models are Unsupervised Multitask Learners」(GPTのバージョン2)の要約と結論を読みました。 要約と結論から、いくつかの疑問も湧き起こりました。これから読み進むにつれてその解答合わせもできることを目指しています。 さて今回は、疑問に思っていることなどを踏まえて、どのあたりに注力して読むかを決めます。まずは、論文の全体構造をざっと見回して、軽く図や表に触れていきます