シェア
前回は、OpenAIが2020年に発表した論文「Language Models are Few-Shot Learners」(GPT-3)の構造をざっくり見渡して読むための方針を決めました。 この方針に従って、今回は「導入」を丁寧に読み進めていきます。気になっていた「メタ学習」や「文脈内学習」などといったキーワードを探しながら理解を深めていきましょう。
Twitterで「NumPyを使ったGPT-2の不必要に小さな実装」といったツイートを何度か見かけたのでちょっと調べてみました。なんと60行ほどでGPT-2を実装したリポジトリとブログ記事があったのですが、GPTの本質をついているのでここで解説します。 import numpy as npdef gelu(x): return 0.5 * x * (1 + np.tanh(np.sqrt(2 / np.pi) * (x + 0.044715 * x**3)))def
BERTはBidirectional Encoder Representation from Transformersの略です。直訳すれば、「トランスフォーマーからの双方向エンコーダ表現」となります。この記事ではその意味を解説します。 BERTは事前訓練済みの巨大な言語モデル(Large Language Model、LLM)です。最近では、GPT3と共にファウンデーション(基盤)モデルとも呼ばれています。ただし、GPT3とBERTにははっきりとした違いがあります。 GP
この記事では米国スタンフォード大学の記事が定義したファウンデーション・モデル(基盤モデル、Foundation Model)というキーワードについて解説します。 ファウンデーション・モデルとはファウンデーション・モデルは、広範なデータでトレーニングされたモデルとして定義されます。通常は大規模な自己教師あり学習(Self-Supervised Learning)を行います。つまり、データの一部を隠すなどしてモデルに予測させる訓練をするので、教師あり学習(Supervised
今回使うモデルは、東北大学が提供しているBERTを日本語に対応させたもの。早速やってみよう。 MeCabをインストールするMeCabは日本語の文章の形態素解析(トークン化)を行うツールです。 WindowsとLinuxは本家のウェッブページにインストールの方法があります。 macOSであれば、brewを使ってインストールできます。brew自体がない方は、こちらからインストールしてください。 brew install mecab Pythonの環境を作るまず、Pyth
この記事で学ぶことここ数年、人工知能において以前は鉄板だった「教師あり学習」から「教師なし学習」への大きな流れが見受けられます。特にトランスフォーマーを利用した事前学習を行うBERTなどの影響が大きいですが、そのほかにもGeoffrey HintonらによるContrastive Learningによる事前学習なども注目されています。 今回は、これらの事前学習に共通する手法で「教師なし学習」だけど正解データを使う「自己教師あり学習」について解説します。 教師なし学習教師な