2017年は、AIの世界で一つのターニングポイントとなりました。その年に誕生したのが「Transformer」というモデルです。この新技術は、計算機の進化と相まって、大量のデータを学習し、その結果として大規模言語モデル(LLM)の精度が飛躍的に向上しました。
ここで我々の主役GPT-4が登場します。GPTとは「Generative Pretrained Transformer」の略で、これは大量のテキストデータを予め学習したTransformerモデルを指します。
サム・アルトマンCEOをはじめこのよく聞くTransformerとはいったい何だろうと常々思っていました。
突然「Attention層」だけを使うという進化をとげた?
などどよく書いてありますよね。一応ここにも書いておきますが、
このTransformerが、従来のディープラーニング技術であるRNNやCNNが当たり前に使われていたRecurrent層や畳み込み層を一切使わず、代わりに「Attention層」だけを使うという進化を遂げたことです。このアイデアが、私たちのAIの世界を大きく変えました。そして、この革新的な技術が現れたことで、大規模言語モデルの発展の競争が始まりました。まさに、この時代は、大規模言語モデルの戦国時代とも言えます。
そうは言われましてもよくわからないのでGPT-4にお願いしました。
Transformerを小学生にも解るように教えてください
わかりみが深すぎておどろきますよね!
Transformer(注意機構)とは、ネットワークが入力シーケンスのどの部分に注目すべきかを学習する機能のことで、特に自然言語処理タスクで有用です。これにより、モデルは長距離の依存関係を捉え、文脈を理解する能力を向上させることが可能になるとの事ですが、どうしてそうなるのかてんでわかりません。そこでまた質問しました。
どうしてTransformerは長距離の依存関係を捉える事ができるようになったのですか?小学生にも(以下略
実にわかりやすいじゃないですか!自分の事知り尽くしてるんですね。当たり前か。
Midjourneyにタイトル絵を書かせるからプロンプト書いて!
とお願いしたら、こんなプロンプトを書きました。
描きだしてみたら4枚ともめちゃくちゃかわいかったので記事の間にも挿入しておきますね。