![見出し画像](https://assets.st-note.com/production/uploads/images/96995893/rectangle_large_type_2_ec12381755080f2ba3797a7c6132f655.png?width=1200)
BERTとは
BERTはBidirectional Encoder Representation from Transformersの略です。直訳すれば、「トランスフォーマーからの双方向エンコーダ表現」となります。この記事ではその意味を解説します。
BERTは事前訓練済みの巨大な言語モデル(Large Language Model、LLM)です。最近では、GPT3と共にファウンデーション(基盤)モデルとも呼ばれています。ただし、GPT3とBERTにははっきりとした違いがあります。
GPT3はトランスフォーマーのデコーダをベースにしたモデルで文章生成に優れています。その一方、BERTはトランスフォーマーのエンコーダをベースにしたモデルで文章から特徴量を抽出することを得意とします。
とは言うものの、GPT3もBERTも事前学習を行う点は共通しています。それはオリジナルのトランスフォーマーからの違いでもあります。もちろん、BERTの事前学習はGPT3とは手法が異なります。
よって、BERTにおける事前学習を理解するとBERTの特徴がよくわかります。まずは、オリジナルのトランスフォーマーとの違いを見ていきましょう。
教師あり学習の問題
オリジナルのトランスフォーマーを開発したGoogleの研究者であるAshish Vaswaniらのチームは、翻訳モデルの訓練に「教師あり学習」を使いました。この教師あり学習において、2つの問題点があります。
例えば、「ドイツ語から英語への翻訳」をするモデルのためには、ドイツ語の文章とそれに対応する英語の翻訳文の両方を含む訓練用のデータが必要です。そのようなテキストデータを大量に収集するのは機械翻訳の品質を確保するためになくてはならないものですが、大変な時間と労力がかかる作業になります。これが教師あり学習を言語モデルの訓練で使用する際の第一の問題点です。
そして「教師あり学習」にはもう一つの問題があります。
まず、オリジナルのトランスフォーマーのアーキテクチャを簡単に復習しましょう。トランスフォーマーには、翻訳元(ソース)言語の文章を処理するエンコーダと翻訳先(ターゲット)言語の文章を生成するデコーダがあります。エンコーダはソースの文章から文脈を抽出してデコーダが翻訳をするするのを助けます。
![](https://assets.st-note.com/img/1673869854521-l4JZL0ev8M.png?width=1200)
このように翻訳とはソースから抽出した情報をターゲットの言語へと変換していく作業になります。例えば、ドイツ語の文章の情報をもとに同じ意味を含んだ英語の文章への変換を行います。
つまり「教師あり学習」によってエンコーダはドイツ語から英語への翻訳というタスクに役立つ情報を抽出するようになります。これは翻訳が最終的な目的であることを考えれば、合理的に思えます。 しかし、ここに落とし穴があります。
この記事が気に入ったらチップで応援してみませんか?