巨大言語モデル（LLMs）の衝撃

GPT-3を読む③導入（その１）

前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」（GPT-３）の構造をざっくり見渡して読むための方針を決めました。この方針に従って、今回は「導入」を丁寧に読み進めていきます。気になっていた「メタ学習」や「文脈内学習」などといったキーワードを探しながら理解を深めていきましょう。

NumPyを使ったGPT-2の不必要に小さな実装

Twitterで「NumPyを使ったGPT-2の不必要に小さな実装」といったツイートを何度か見かけたのでちょっと調べてみました。なんと60行ほどでGPT-2を実装したリポジトリとブログ記事があったのですが、GPTの本質をついているのでここで解説します。 import numpy as npdef gelu(x): return 0.5 * x * (1 + np.tanh(np.sqrt(2 / np.pi) * (x + 0.044715 * x**3)))def

BERTとは

BERTはBidirectional Encoder Representation from Transformersの略です。直訳すれば、「トランスフォーマーからの双方向エンコーダ表現」となります。この記事ではその意味を解説します。 BERTは事前訓練済みの巨大な言語モデル（Large Language Model、LLM）です。最近では、GPT3と共にファウンデーション（基盤）モデルとも呼ばれています。ただし、GPT3とBERTにははっきりとした違いがあります。 GP

ファウンデーション（基盤）モデルとは

この記事では米国スタンフォード大学の記事が定義したファウンデーション・モデル（基盤モデル、Foundation Model）というキーワードについて解説します。ファウンデーション・モデルとはファウンデーション・モデルは、広範なデータでトレーニングされたモデルとして定義されます。通常は大規模な自己教師あり学習（Self-Supervised Learning）を行います。つまり、データの一部を隠すなどしてモデルに予測させる訓練をするので、教師あり学習（Supervised

BERTで日本語の文章の穴埋めをやってみる

今回使うモデルは、東北大学が提供しているBERTを日本語に対応させたもの。早速やってみよう。 MeCabをインストールするMeCabは日本語の文章の形態素解析（トークン化）を行うツールです。 WindowsとLinuxは本家のウェッブページにインストールの方法があります。 macOSであれば、brewを使ってインストールできます。brew自体がない方は、こちらからインストールしてください。 brew install mecab Pythonの環境を作るまず、Pyth

「教師あり学習」はもう古い？正解データを自動生成できる「自己教師あり学習」を解説します

この記事で学ぶことここ数年、人工知能において以前は鉄板だった「教師あり学習」から「教師なし学習」への大きな流れが見受けられます。特にトランスフォーマーを利用した事前学習を行うBERTなどの影響が大きいですが、そのほかにもGeoffrey HintonらによるContrastive Learningによる事前学習なども注目されています。今回は、これらの事前学習に共通する手法で「教師なし学習」だけど正解データを使う「自己教師あり学習」について解説します。教師なし学習教師な

フォローしませんか？

#BERT