マガジンのカバー画像

巨大言語モデル(LLMs)の衝撃

57
巨大言語モデル(LLMs)関連の記事を集めました。
運営しているクリエイター

#GPT3

GPT-3を読む⑩モデル評価

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の訓練プロセスについての解説を読みました。 今回は、評価(2.4 Evaluation)のセクションを読みます。

GPT-3を読む⑨訓練プロセス

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の訓練データセットについての解説を読みました。 今回は、訓練プロセス(2.3 Training Process)のセクションを読みます。

GPT-3を読む⑧訓練データセット

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)のモデル構造についての解説を読みました。 今回は、訓練データセット(2.2 Training Dataset)のセクションを読みます。

GPT-3を読む⑦モデル構造

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「アプローチ」の始まりの部分を読みました。 今回は、「モデルとアーキテクチャ」(2.1 Model and Architectures)を読み、モデル構造などがGPT-2からどう変わったのかを理解しましょう。

GPT-3を読む⑥アプローチ

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」を読み終えました。 OpenAIの研究者たちは、当時としては最も大容量だったマイクロソフトのTuring-NLG(170億パラメータ)の10倍の容量(1750億パラメータ)を持つGPT-3を事前学習し、「ゼロショット、ワンショット、少数ショット」の設定によって評価することを計画しました。 今回は、セクション「2 アプローチ

GPT-3を読む⑤導入(その3)

前回までに、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」の中盤まで読みました。 大容量の言語モデルは事前学習によって、「与えられた指示や例文」の内容から学習(文脈内学習)する能力を得るということが、GPT-2の頃からわかってきました。また、文脈学習をメタ学習の枠組みの中で捉えるという解説もありました。 ただし、GPT-2の実験が行われた頃は、メタ学習や文脈学習といった概念は明確

GPT-3を読む④導入(その2)

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の「導入」の前半を読みました。 特に、「事前学習+微調整」の台頭と限界が議論の中心になっていました。どちらかというと問題点が指摘されており、解決のアプローチには触れられていません。また、「メタ学習」や「文脈内学習」といったキーワードもまだ登場していません。 では、「導入」の中盤を読み進めていきましょう。

GPT-3を読む③導入(その1)

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の構造をざっくり見渡して読むための方針を決めました。 この方針に従って、今回は「導入」を丁寧に読み進めていきます。気になっていた「メタ学習」や「文脈内学習」などといったキーワードを探しながら理解を深めていきましょう。

GPT-3を読む②構造と方針

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の要約と結論を読みました。 要約と結論から、いくつかの疑問も湧き起こりました。これから読み進むにつれてその解答合わせもできることを目指しています。 今回は、疑問に思っていることなどを踏まえて、どのあたりに注力して読むかを決めます。まずは、論文の全体構造をざっくりと見渡しながら、軽く図や表に触れていきます。 ところで、この論文は、GPT

GPT-3を読む①要約と結論

前回までに、GPT-1とGPT-2の論文を読み終えました。今回からGPT-3の論文「Language Models are Few-Shot Learners」(言語モデルは少数ショットの学習者)を読み始めます。 前回まで読んできた方なら、これはGPT-2の「ゼロショット」から「少数ショット」へとアプローチを変えたのだと気づくでしょう。また、GPT-1の「ファインチューニング」とどう違うのかも気になるところです。 とろこで、この論文の著者リストは以前よりずっと長いです。こ

ChatGPT問題視される。世界の反応まとめ

ChatGPTが登場して以降、世界は大きな変化にさらされています。インターネットが一般に普及したときと同じくらいの影響力があり、その広がりは目まぐるしいものです。すでに数え切れないほどの便利なサービスが生まれており、期待もどんどん膨らんでいます。バブルのような状況も見られ、プロンプトエンジニアには高額な報酬が支払われるようになっています。 しかし、暗い影もちらついています。長期的に見ると、AIが自分で良質なプロンプトを考えるようになり、工夫や創作性すら人間には必要なくなるか

GPT-4:詳細未公開の先に見えるもの

2022年の間ずっと噂されていたOpenAIのGPT-4ですが、つい先日の3月14日に公開されました。Microsoftの新しいBingではすでに組み込み済みであり、ChatGPT Plusでも使用することができます。 すでにたくさんの記事があちこちで読めます。Twitter上でもたくさんのつぶやきが「GPT-4」関連になっています。もちろん、そういう人たちをフォローしているせいもありますが。 多くの内容は「GPT-4は凄い」というものです。画像も扱えるし、性能がこれまで

NumPyを使ったGPT-2の不必要に小さな実装

Twitterで「NumPyを使ったGPT-2の不必要に小さな実装」といったツイートを何度か見かけたのでちょっと調べてみました。なんと60行ほどでGPT-2を実装したリポジトリとブログ記事があったのですが、GPTの本質をついているのでここで解説します。 import numpy as npdef gelu(x): return 0.5 * x * (1 + np.tanh(np.sqrt(2 / np.pi) * (x + 0.044715 * x**3)))def

ツールフォーマー:メタの言語モデルはAPIで検索エンジン、電卓、カレンダーを使う

言語モデル(LM)は、ある入力に基づいて自然言語のテキストを生成できる強力なシステムです。質問に答えたり、物語を書いたり、記事を要約したりといったさまざまなタスクをこなすことができます。しかし、それらにもいくつかの限界があります。 例えば、算数や事実検索といった基本的な機能に苦戦することがよくあります。これらの機能は、より単純で小さなモデルが得意とするものです。また、事実と異なる情報を含むテキストを生成する傾向があります。 これらの限界を克服するために、Meta AI R