マガジンのカバー画像

巨大言語モデル(LLMs)の衝撃

57
巨大言語モデル(LLMs)関連の記事を集めました。
運営しているクリエイター

#文脈内学習

GPT-3を読む⑥アプローチ

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」を読み終えました。 OpenAIの研究者たちは、当時としては最も大容量だったマイクロソフトのTuring-NLG(170億パラメータ)の10倍の容量(1750億パラメータ)を持つGPT-3を事前学習し、「ゼロショット、ワンショット、少数ショット」の設定によって評価することを計画しました。 今回は、セクション「2 アプローチ

GPT-3を読む⑤導入(その3)

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」の中盤まで読みました。 大容量の言語モデルは事前学習によって、「与えられた指示や例文」の内容から学習(文脈内学習)する能力を得るということが、GPT-2の頃からわかってきました。また、文脈学習をメタ学習の枠組みの中で捉えるという解説もありました。 ただし、GPT-2の実験が行われた頃は、メタ学習や文脈学習といった概念は明確

GPT-3を読む④導入(その2)

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」の前半を読みました。 特に、「事前学習+微調整」の台頭と限界が議論の中心になっていました。どちらかというと問題点が指摘されており、解決のアプローチには触れられていません。また、「メタ学習」や「文脈内学習」といったキーワードもまだ登場していません。 では、「導入」の中盤を読み進めていきましょう。

GPT-3を読む②構造と方針

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の要約と結論を読みました。 要約と結論から、いくつかの疑問も湧き起こりました。これから読み進むにつれてその解答合わせもできることを目指しています。 今回は、疑問に思っていることなどを踏まえて、どのあたりに注力して読むかを決めます。まずは、論文の全体構造をざっくりと見渡しながら、軽く図や表に触れていきます。 ところで、この論文は、GPT

ツールフォーマー:メタの言語モデルはAPIで検索エンジン、電卓、カレンダーを使う

言語モデル(LM)は、ある入力に基づいて自然言語のテキストを生成できる強力なシステムです。質問に答えたり、物語を書いたり、記事を要約したりといったさまざまなタスクをこなすことができます。しかし、それらにもいくつかの限界があります。 例えば、算数や事実検索といった基本的な機能に苦戦することがよくあります。これらの機能は、より単純で小さなモデルが得意とするものです。また、事実と異なる情報を含むテキストを生成する傾向があります。 これらの限界を克服するために、Meta AI R

GPTはなぜ文脈内学習ができるのか?

最近読んだGPT関連の論文で面白いものがあったので紹介します。 Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers この論文のタイトルを日本語にすると、「GPTはなぜ文脈内学習ができるのか? 言語モデルはメタ最適化器として秘密裏に勾配降下法を行っている」となります。 以前、GPT-3の解説でも触れましたが、GPT-3は大量の文