マガジンのカバー画像

巨大言語モデル(LLMs)の衝撃

57
巨大言語モデル(LLMs)関連の記事を集めました。
運営しているクリエイター

#トランスフォーマー

GPT-1を読む③方針

前回までに、OpenAIが2018年に発表したGPTの最初のバージョンの論文「Improving Language Understanding by Generative Pre-Training」の要約と結論を読みました。今回は、論文を構成を掴みながら図や表などに目を通します。まだ、要約や結論を読んでいない方は前回や前々回の記事を参考にしてください。 いつものように今回も、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。どのセクションに注力して

GPT-4:詳細未公開の先に見えるもの

2022年の間ずっと噂されていたOpenAIのGPT-4ですが、つい先日の3月14日に公開されました。Microsoftの新しいBingではすでに組み込み済みであり、ChatGPT Plusでも使用することができます。 すでにたくさんの記事があちこちで読めます。Twitter上でもたくさんのつぶやきが「GPT-4」関連になっています。もちろん、そういう人たちをフォローしているせいもありますが。 多くの内容は「GPT-4は凄い」というものです。画像も扱えるし、性能がこれまで

NumPyを使ったGPT-2の不必要に小さな実装

Twitterで「NumPyを使ったGPT-2の不必要に小さな実装」といったツイートを何度か見かけたのでちょっと調べてみました。なんと60行ほどでGPT-2を実装したリポジトリとブログ記事があったのですが、GPTの本質をついているのでここで解説します。 import numpy as npdef gelu(x): return 0.5 * x * (1 + np.tanh(np.sqrt(2 / np.pi) * (x + 0.044715 * x**3)))def

GPTはなぜ文脈内学習ができるのか?

最近読んだGPT関連の論文で面白いものがあったので紹介します。 Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers この論文のタイトルを日本語にすると、「GPTはなぜ文脈内学習ができるのか? 言語モデルはメタ最適化器として秘密裏に勾配降下法を行っている」となります。 以前、GPT-3の解説でも触れましたが、GPT-3は大量の文

BERTとは

BERTはBidirectional Encoder Representation from Transformersの略です。直訳すれば、「トランスフォーマーからの双方向エンコーダ表現」となります。この記事ではその意味を解説します。 BERTは事前訓練済みの巨大な言語モデル(Large Language Model、LLM)です。最近では、GPT3と共にファウンデーション(基盤)モデルとも呼ばれています。ただし、GPT3とBERTにははっきりとした違いがあります。 GP