Transformer以降のAI研究の進化（2017～2025）

2025年2月4日 12:45

1. 歴史的背景

2017年に発表された論文「Attention Is All You Need」により、Transformerと呼ばれる新しいニューラルネットワーク構造が提案されました ([1706.03762] Attention Is All You Need) Transformerは、従来主流であった再帰型ニューラルネットワーク（RNN）や長短期記憶（LSTM）とは異なり、系列データの処理において**自己注意機構（Self-Attention）**のみを用いる点が特徴です ([1706.03762] Attention Is All You Need) これにより、従来必要だった時間的な再帰を廃し、並列計算によって効率よく大規模データを学習できます。また機械翻訳タスクで当時の最先端モデルを上回る性能を示し、短時間での学習を可能にしました ([1706.03762] Attention Is All You Need) Transformerの登場は、自然言語処理に限らず画像認識など幅広いAI分野に革新をもたらし、以降の研究の基盤となりました。

2. トランスフォーマー以降の主な研究・論文

言語モデルの発展（2018～2020年）: Transformerの概念を基に、まず自然言語処理の分野で次々と画期的なモデルが登場しました。2018年にはGoogleによりBERT（Bidirectional Encoder Representations from Transformers）が発表されました ([1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding) BERTは、大量の未ラベルテキストに対する自己教師あり事前学習（マスク化言語モデルと次文予測）によって文脈を双方向からとらえられる言語モデルです ([1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding) BERTは質問応答や言語推論など11のNLPタスクで当時の最高精度を更新し ([1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding) 微調整を行うだけで多様なタスクに適用できる汎用性を示しました。この成功により、「事前学習→微調整」というNLPの新たなパラダイムが確立されました。

一方、OpenAIはより大規模な生成型言語モデルの研究を進め、2019年にGPT-2、続いて2020年にGPT-3を公開しました。特にGPT-3（1750億パラメータ）は非常に大規模なTransformerデコーダモデルで、タスク固有の学習なしにテキスト生成や質問応答などを高精度にこなせることを示しました ([2005.14165] Language Models are Few-Shot Learners) ([2005.14165] Language Models are Few-Shot Learners) GPT-3は与えられた数例の例示（Few-Shot学習）だけで新しいタスクに適応でき、翻訳や問答から簡単な推論・計算まで強力な性能を発揮しました ([2005.14165] Language Models are Few-Shot Learners) また人間が書いた記事と見分けがつかない文章を生成できることも報告され ([2005.14165] Language Models are Few-Shot Learners) その創造力と潜在的リスクの両面で社会に大きなインパクトを与えました。モデル規模を拡大し膨大なテキストで訓練することで言語モデルが飛躍的に知的能力を獲得することが、この時期の研究で明らかになりました。

視覚・マルチモーダルへの拡張（2020～2021年）: Transformerは言語以外の分野にも波及しました。2020年には画像認識にTransformerを応用したVision Transformer (ViT) が登場し、画像を16×16のパッチに分割して直接Transformerで処理することで、高性能な画像分類を実現しました ([2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale) 十分なデータで事前学習したViTは、従来の畳み込みニューラルネットワーク（CNN）に匹敵する精度を達成し、しかも計算資源効率も良いことが示されました ([2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale) この結果は、Transformerが視覚分野でも有効であり、異なるドメインで共通のアーキテクチャを用いる可能性を示しました。

さらにマルチモーダル（複数のデータモード統合）AIの進展も加速しました。OpenAIのCLIP（2021年）は、画像とテキストのペア4億組を学習して、画像とテキストを共通の埋め込み空間にマッピングするモデルです ([2103.00020] Learning Transferable Visual Models From Natural Language Supervision) CLIPは「この画像に対する正しいキャプションはどれか」を当てるタスクで事前学習されており、学習後はテキストで指示するだけで画像分類ができるゼロショット学習能力を獲得しました ([2103.00020] Learning Transferable Visual Models From Natural Language Supervision) 実際、ImageNet画像分類で一例も追加学習せずに従来の教師ありモデルと同等の精度を達成しています ([2103.00020] Learning Transferable Visual Models From Natural Language Supervision) こうして得られた視覚と言語の統合表現は、後の画像生成AIにも応用されました。例えば2021年にはテキストから画像を生成するGPT系モデルDALL-Eが公開され、2022年には拡散モデルを用いたStable Diffusionが高品質な画像生成で注目を集めました。これらの生成モデルは、クリエイティブ分野でのAI活用を一気に身近なものとし、美術やデザインの領域にもAI技術が浸透する契機となりました。

大規模モデルと「基盤モデル」の時代（2022年）: 2022年頃までに、Transformerを基盤とした大規模モデルは「基盤モデル（Foundation Model）」とも呼ばれ、言語・視覚・音声など様々な領域で汎用的に活用され始めました。GoogleのLaMDAやPaLM、MetaのOPTなど各社が大規模言語モデルを競って開発し、パラメータ数はさらに増大しました。また同年、DeepMindのAlphaFold2はタンパク質構造予測にTransformer技術を応用し、人間には難しい課題をAIが解決できることを示しました。特筆すべきは、OpenAIが公開した対話特化の言語モデルInstructGPTです。これはGPT-3をベースに**人間のフィードバックによる強化学習（RLHF）**を用いて調整されたモデルで、人間の指示に忠実に従うよう最適化されています ([2203.02155] Training language models to follow instructions with human feedback) わずか13億パラメータのInstructGPTが1750億パラメータの元のGPT-3よりもユーザ評価で好ましい応答を生成したとの報告もあり ([2203.02155] Training language models to follow instructions with human feedback) モデルの巨大化だけでなく「人間と協調する調整」が性能向上に極めて重要であることが示されました。InstructGPTを基に対話AIサービスのChatGPTが2022年末に公開されると、その自然な応答性能が世界中で大きな話題となり、生成AIブームの引き金となりました。

3. 最新の2024年～2025年動向

大規模言語モデルのさらなる進化: 2023年以降、大規模言語モデル（LLM）は一層高度化・多様化しています。OpenAIはGPT-4を発表し、画像入力にも対応したマルチモーダルモデルへと進化させました。またMeta社は2023年にパラメータ70億～700億規模の「Llama 2」をオープンソースで公開し、研究コミュニティや企業がLLMを活用・改良しやすい環境を整えました ([2307.09288] Llama 2: Open Foundation and Fine-Tuned Chat Models) Llama 2のようなオープンモデルの登場により、各国・各分野で独自に言語モデルを訓練・応用する動きが加速しています。実際、第一世代のLlama（パラメータ130億など）は公開データのみで学習し、最先端のGPT-3（1750億パラメータ）に匹敵する性能を達成したと報告されています ([2302.13971] LLaMA: Open and Efficient Foundation Language Models) これらの知見を踏まえ、効率良く高性能モデルを構築するための工夫（モデル圧縮、蒸留、効率的注意機構など）も多く研究されています。例えばモデルの量子化技術により、これまで数十億パラメータのモデルを個人の手元のGPUでも動かせるようになってきています。総じて、LLMは単に巨大化するだけでなく、誰もが利用できる形で普及する局面に入っています。

マルチモーダルと汎用AIへの展開: テキスト以外のデータを統合して扱えるモデルの開発も2024年現在の重要トレンドです。前述のGPT-4やGoogleのPaLM-E ([2303.03378] PaLM-E: An Embodied Multimodal Language Model) 、画像やロボットのセンサ情報など複数のモーダルを入力できる汎用モデルです。特にPaLM-Eはロボット工学への応用を念頭に、視覚（カメラ映像）と言語を統合してロボットの動作計画を立てられるよう訓練されています ([2303.03378] PaLM-E: An Embodied Multimodal Language Model) ([2303.03378] PaLM-E: An Embodied Multimodal Language Model) 最大5620億パラメータにも及ぶこのモデルは、ロボット制御のみならず視覚質問応答などのタスクでも最先端の性能を示し、スケールアップによって言語以外の知覚・推論も可能となることを証明しました ([2303.03378] PaLM-E: An Embodied Multimodal Language Model) またMeta社のImageBind（2023年）は、画像・テキスト・音声・深度・温度・動きという6種類の異なるデータモダリティを単一の埋め込み空間に結び付ける自己教師型モデルです ([2305.05665] ImageBind: One Embedding Space To Bind Them All) ImageBindでは、すべての組み合わせのデータ対を用意しなくても画像をハブに各モダリティ間の関連を学習できることが示されました ([2305.05665] ImageBind: One Embedding Space To Bind Them All) その結果、視覚や音響から得た情報を統合して理解・検索・生成するといった新たな応用が可能になり、各種単一モーダル専門モデルを上回るゼロショット認識精度を達成しています ([2305.05665] ImageBind: One Embedding Space To Bind Them All) このように近年の研究は、テキスト・画像・音声・動作など複数モーダルを包括的に扱うことで、人間のように多面的な知覚・認識を行う汎用AI（ジェネラリストAI）に近づきつつあります。

自己教師あり学習と強化学習の統合: 大規模モデルを支える自己教師あり学習（Self-Supervised Learning）は、2024年現在もAI研究の原動力です。特に大量データからラベルなしで特徴を学習する手法は、言語モデルだけでなく映像・音声・ロボットのセンサーデータにまで広がっています。今後はこうした自己教師ありで獲得した汎用知識を、強化学習などによる問題解決能力と組み合わせる試みが注目されています。例えばゲームやロボット操作の分野では、過去の行動系列データをTransformerに与えて方策を学習するDecision Transformerのようなアプローチも提案されています。また前述のRLHFのように、人間からの評価を報酬としてモデルを調整する技術は、チャットAIの安全性向上や好ましい振る舞いの獲得に引き続き活用されています。2023年には、言語モデルに外部ツールを使わせて課題解決する「AIエージェント」の概念も盛り上がりを見せました。例えば、ユーザの複雑な要求に対し、言語モデルが自ら他のソフトウェアAPIを呼び出して計算や情報検索を行うといった実験的システムが多数登場しています。これらはまだ初期的な試みですが、将来的には強力な言語モデルが思考のエンジンとなり、インターネットや物理世界のツールと連携して自律的に問題解決することが期待されています。

技術的な課題と展望: TransformerベースのAIは飛躍的な発展を遂げましたが、依然として課題も存在します。例えば長大な入力文脈や高解像度画像への対応には、従来のAttention機構では計算量が増大する問題があり、長い文脈を効率よく扱う新手法（LongformerやFlashAttentionなど）の研究が進んでいます。また巨大モデルは「幻覚（hallucination）」と呼ばれる事実誤認の出力や、バイアス・有害表現の問題を抱えており、信頼できるAIの実現に向けてモデルの説明性や安全性を高める研究も活発化しています。コンテキスト拡張のために外部の知識ベースとモデルを組み合わせる手法（Retrieval-Augmented Generation）や、対話履歴を長期記憶するメモリ機構の統合なども試みられています。さらに、Transformer以降を見据えた新たなアーキテクチャの模索も続いており、注意機構に代わる手法や再帰構造の復権など、研究者たちは次世代の基盤となるモデルを模索しています。ただし現時点（2025年）では、Transformerの汎用性と実績を超える決定的な手法は登場しておらず、TransformerがAIモデルの主流であり続けています。

参考文献:

Vaswani, Ashish et al. (2017). “Attention Is All You Need.”
Devlin, Jacob et al. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.”
Brown, Tom et al. (2020). “Language Models are Few-Shot Learners.”
Dosovitskiy, Alexey et al. (2020). “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.”
Radford, Alec et al. (2021). “Learning Transferable Visual Models From Natural Language Supervision.”
Ouyang, Long et al. (2022). “Training language models to follow instructions with human feedback.”
Touvron, Hugo et al. (2023). “LLaMA: Open and Efficient Foundation Language Models.”
Touvron, Hugo et al. (2023). “Llama 2: Open Foundation and Fine-Tuned Chat Models.”
Driess, Danny et al. (2023). “PaLM-E: An Embodied Multimodal Language Model.”
Girdhar, Rohit et al. (2023). “ImageBind: One Embedding Space To Bind Them All.”
Doshi, Anil R. & Hauser, Oliver P. (2024). “Generative AI enhances individual creativity but reduces the collective diversity of novel content.”
McKinsey & Company (2024). “2024 State of AI (Global Survey Results).”
Center for AI Safety (2023). “Statement on AI Risk.”