Geminiの技術レポートを読み解く〜生成AIの最前線
Google DeepMindから次世代のマルチモーダル生成AI「Gemini」が発表されました。「GPT-4を圧倒」や「人間の専門家を超えた」などの華々しい評価が発表され、驚くようなデモ動画も公開されました。
断片的な情報が飛び交う中、しっかりと技術レポートを読み解いてみます。
どんな生成AIモデル?
定量的な評価は?
具体例は?
はじめに
革新的な技術が登場したとき、技術レポートや論文をしっかりと読むことが、急がば回れの近道です。華々しいデモ動画や断片的な二次情報の記事を読んでも、表層的な情報に踊らされて、技術の真の姿を読み解くことはできません。
Geminiに関しては、オープンソースではなく論文もありませんが、技術レポートが公開されています。しかし、60ページの大作であり、英語で書かれているため、多くの人が読むのをためらうでしょう。
そこで、OpenAIのGPTの技術レポートやMetaのLlama2の論文など、生成AIについての技術ドキュメントを読んできた者として、GPTやLlama2との違いも抑えながら、Geminiの技術レポートを読み解いてみます。
モデルの概要
Geminiの大きな特徴は「マルチモーダル」であり、テキスト・音声・画像・動画の入力に対応し、テキストと画像を生成します。
中核の技術は「Transformer」であり、主な特徴は以下の通りです。
効率的なアテンションメカニズムを採用(マルチクエリー・アテンション(Shazeer, 2019) など)
32K (32,768) トークンという長いコンテキスト
16kHZの音声信号を直接取り込める
事前学習では、以下のような工夫をしているようです。
SentencePieceトークナイザー(Kudo and Richardson, 2018)を使用し、訓練コーパス全体の大きなサンプルでトークナイザーを訓練することで、推測される語彙が改善され、モデルの性能が向上することを発見
ヒューリスティック・ルールとモデルベース分類器の両方を用いて、すべてのデータセットに品質フィルターを適用
学習中に混合構成を変化させるために、学習の終盤にドメインに関連するデータの重みを増加させるような段階的学習
また、AIのリスクに対して責任ある開発をおこなうため、事前学習、教師ありファインチューニング (SFT) 、人間のフィードバックによる強化学習 (RLHF) では、GPT-4やLlama2と異なる工夫を行ったようです。
グーグルのAI原則 (Google, 2023) を用いて潜在的な影響を内部評価
ホワイトハウスのコミットメントに記載されている分野なども含めた外部評価
Partnership on AI の「Responsible Sourcing of Data Enrichment Services」に基づいて策定された Google DeepMind のデータエンリッチメントに関するベストプラクティス を満たすための措置
「役立つ (Helpfulness)」「安全である (Safety)」「事実である (Factuality)」の3つの報酬スコアの加重和を用いた多目的最適化を用いて、マルチヘッド報酬モデルを訓練
GPT-4やLlama2の報酬モデルでは「役立つ」「安全である」の2つの報酬スコアだったのに対し、Geminiでは「事実である」の報酬スコアを加えているのが特徴的です。生成AIのハルシネーション(幻覚)を抑える効果を期待したのかもしれません。また、以下の3つの望ましい行動でチューニングして、ハルシネーションを抑える効果があったようです。
帰属 (Attribution) : プロンプトで与えられた文脈に完全に帰属する回答を生成するよう指示された場合、文脈に最も忠実な回答を生成する(Rashkin et al., 2023)
クローズド・ブック応答生成:与えられたソースなしで事実探索のプロンプトが提供された場合、間違った情報を幻覚してはならない (Roberts, et al. 2020)
断定表現を避ける (Hedging):「答えられない」ような入力を求められた場合、幻覚を見てはならない。むしろ、断定表現を避けることによって、回答を提供できないことを認めるべきである。
そんな学習をしたGeminiは、3つのモデルがあります。
Ultra: 推論やマルチモーダル・タスクなど、非常に複雑な幅広いタスクにわたって最先端のパフォーマンスを提供する、最も有能なモデル。Google製チップのTPUv5eとTPUv4で学習。TPUv4アクセラレータは4096個のチップからなるスーパーポッドであり、複数のデータセンターでスーパーポッドを組み合わせてクラスターを構築。
Pro: コストとレイテンシーの観点からパフォーマンスが最適化されたモデル。Ultraのリソースのほんの一部を活用して、数週間で事前学習を完了。
Nano: デバイス上で実行するように設計された、最も効率的なモデル。Nano-1 (1.8Bパラメータ)とNano-2 (3.25Bパラメータ)の2種類。要約や読解など様々なタスクに対応するクラス最高の小規模言語モデルを生成するために、蒸留と学習アルゴリズムの進化を活用。
定量的な評価
Geminiの定量的な評価を確認するにあたり、トップランナーであるOpenAIの大規模言語モデルGPT-4、大規模画像モデルGPT-4V、音声認識モデルWhisperと比較した結果をピックアップしていきます。
MMLUでGPT-4や人間の専門家を上回る
世間をにぎわせたのは、GPT-4や人間の専門家を上回ったという、以下の数字でしょう。
ここで批判的に見ると、いくつか疑問が湧いてきます。
注意書きを見ると、Gemini Ultraが「CoT@32」というプロンプト手法なのに、GPT-4が「5-shot」であり、同一条件でではなく、不公平な比較をしているのでは?
「CoT@32」とは、どんなものか?
そこで、技術レポートを見てみると、CoT@32と5-shotのそれぞれで比較した結果がありました。
「CoT@32」ではGemini Ultraが優れていますが、GPT-4は「CoT@32」より「5-shot」の方が精度が劣ります。つまり、前述のGemini Ultra対GPT-4のグラフは、GPT-4の低い精度の方を選んで、不公平な比較をしていたことになります。
もちろん、今までの最高精度と比較するという意味で、GPT-4の5-shotを比較対象にするのは間違っていません。しかし、純粋なモデルの性能を比較するには、同じ手法で見るべきです。また、5-shotで比較した場合、勝敗が逆転し、Gemini UltraよりGPT-4の方が優れている点も、理解しておくべきでしょう。
では、「CoT@32」というプロンプト手法について、技術レポートを見てみます。どうやら、32個の回答候補を生成して、その中でも最も良いものを選ぶ手法のようです。
32の業界ベンチマークのうち30で最高水準
Gemini Ultraが、GPT-4に圧勝した根拠が、以下の数字でしょう。
ここで批判的に見ると、いくつか疑問が湧いてきます。
なぜ、32個のベンチマークなのか?他のベンチマークは?
32個のベンチマークの内訳は?
Gemini Ultraが性能で劣った、30の内の2つのベンチマークは?
そこで、技術レポートを見てみると、実は61個のベンチマークで評価したことが、Appendixに書かれていました。
なぜ約半分のベンチマークが対象外になったのでしょう?
その理由の一つに、大規模モデルならではの問題があります。大規模モデルはインターネット上の大量のデータを学習しているため、もし対象のベンチマークのデータも学習してしまっている場合、事実上カンニングをしていることになります。それを避けるために、いつくかのベンチマークを対象外にしたという記載がありました。
次に、32個のベンチマークの内訳を見てみます。
テキストと推論:12
画像認識:9
動画認識:6
音声認識と音声翻訳:5
テキストと推論のベンチマーク
テキストと推論の12のベンチマークの評価結果は、複数の表に分かれています。
Gemini Ultraが、GPT-4を代表とした他のモデルを圧倒していることが分かります。また、Gemini ProはGPT-3.5を圧倒しており、軽量モデルで高速処理かつ優れた性能が期待されます。
そして、Gemini Ultraが劣った2つのベンチマークは、推論のHellaSwagと多言語要約のWikilinguaのようです。ただし、他の推論のベンチマーク (BigBench Hard, DROP) や多言語のベンチマーク (WMT23, MGSM)ではGemini Ultraが優れているので、推論や多言語が一概に弱いわけではないようです。
画像認識のベンチマーク
画像認識は、4つの異なる能力でモデルを評価したようです。
オブジェクト認識:VQAv2のようなキャプションや質問応答タスク
書き起こし:TextVQAやDocVQAのような詳細認識を必要とするタスク
図表理解:ChartQAやInfographicVQAを使用した入力レイアウトの空間的理解を必要とするタスク
マルチモーダル推論:Ai2D、MathVista、MMMU
Gemini UltraがGPT-4Vを上回っただけでなく、ファインチューニングした既存モデルを上回っている点にも注目です。
動画認識のベンチマーク
動画認識は、動画のキャプションや質問応答のタスクで評価されました。GPT-4は動画に対応していないので、比較対象は、既存の最高性能 (SoTA)のモデルのみです。
Gemini Ultraが圧倒的に強いです。ちなみに動画認識では、静止画と異なり、「数フレームにわたる強力な時間的推論の能力を示している」のがポイントです。
音声認識のベンチマーク
音声認識と音声翻訳のベンチマークの評価では、OpenAIのWhisper、Universal Speech Model (USM)と比較されました。
指標として、WER (単語誤り率) は数値が低いほど優れているので、GeminiがWhisperに圧勝しています。また、BLEU (BiLingual Evaluation Understudy)は数値が高いほど優れているので、Geminiが優れています。
定性的な具体例
Gemini Ultraの能力を具体的に理解するため、Appendixにある豊富な例をピックアップします。Googleによる演出込みのデモや様々なメディアによる検証例より、技術レポートにある例をじっくり確認する方が、Geminiの特徴をよく理解できます。
なお、現在のGeminiは、プロンプトが英語のみ対応ですが、分かりやすさのため日本語に翻訳しておきます。
1.多言語環境における常識的な推論
画像の常識的推理をします。 グラフに表された関係を理解し、多言語でそれらについて推論することができます。
プロンプト
回答
2.推論とコード生成
ユーザーのリクエストに基づいて Web サイトのコードを作成します。 ユーザーが定義した指示と要件に従い、それらを機能するコードに変換します。
プロンプト
回答
<!DOCTYPE html> <html>
<head>
<title>Opossum Search</title> <style>
body {
font−family: Arial, margin: 0; padding: 0;
}
sans−serif;
header { background−color: #333; color: #fff;
text−align: center; padding: 1rem 0;
}
.search−bar {
display: flex; justify−content: center; align−items: center; height: 50px; margin−top: 1rem;
}
.search−input {
width: 50%;
padding: 0.5rem; border: 1px solid #ccc; border−radius: 5px;
}
.search−button { margin−left: 1rem; padding: 0.5rem 1rem; border: 1px solid #ccc; border−radius: 5px; cursor: pointer;
}
footer { background−color: #333; color: #fff;
text−align: center; padding: 1rem 0; margin−top: 1rem;
} </style>
</head> <body>
<header>
<h1>Opossum Search</h1>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/a4/Didelphis_virginiana.jpg/ 1200px−Didelphis_virginiana.jpg" alt="Opossum" width="100">
</header>
<div class="search−bar">
<input type="text" class="search−input" placeholder="Search the web"> <button class="search−button">Search</button>
</div>
<footer>
Powered by Google Search
</footer>
<script>
const searchInput = document.querySelector('.search−input'); const searchButton = document.querySelector('.search−button');
searchButton.addEventListener('click', () => { const query = searchInput.value;
if (query) {
window.location.href = `https://www.google.com/search?q=opossum+${query}`; }
}); </script>
</body>
3.数学: 微積分
微積分の問題を解きます。段階的な説明と正しく定義されたLaTeX 方程式によって、微積分問題の解決策を得ることができます。
プロンプト
回答
4.多段階の推論と数学
複数のステップからなる数学の問題を解きます。タスクを理解し、正しく計算された値を含むマークダウン・テーブルを生成できます。 また、数値の出所を示し、タスクで与えられた質問に答えるための指示にも明示的に従います。
プロンプト
回答
5.複雑な画像の理解、コード生成、および命令のフォロー
コード生成に適用されるマルチモーダル推論機能です。 プロットを生成したコードを推論し、追加の数学的変換を実行し、関連するコードを生成するために、逆グラフィックス・タスクを実行します。
プロンプト
回答
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0, 10, 1000)
y1 = np.sin(x)
y2 = np.exp(x)
plt.plot(x, 1000∗y1 + y2)
plt.show()
6.動画の理解と推論
動画で示された状況を理解し、推論します。 テキスト・プロンプトとともに、動画を入力します(※以下の静止画は説明のためであり、実際は動画)。動画内で何が起こったのかを分析し、動画内のアクションがどのように改善されたかについての推奨事項を回答できます。
プロンプト
回答
7.データのチャート理解と推論
テキストを読み、異なるデータポイント間のつながりを理解し、それらを推論して興味深いポイントを推薦し、マークダウン表(※以下では分かりやすさのため、正しくレンダリングされた結果を表示)を生成します。
プロンプト
回答
8.マルチモーダルな質問応答
マルチモーダルな情報探索クエリに答えます。画像に示された特定の植物を認識し、それに関する情報を提供することができます。誤字脱字があってもユーザーの質問を理解できるため、誤字脱字に対する頑健性を示します。
プロンプト
回答
9.画像とテキストの交互生成
交互的なテキストと画像を生成します。テキストに密接に関連する画像と、すべての画像で高いレベルの一貫性を示す犬の画像を含むブログ記事を生成します。
プロンプト
回答
10.イメージの理解と推論
マルチモーダル推論問題を解きます。画像内の形状を認識し、それらの特性を理解し、それらの間の関係を推論して、次のオブジェクトを予測できます。
プロンプト
回答
11.幾何学的推論
幾何学的な推論課題を解きます。課題をよく理解して、やや不明瞭な指示にもかかわらず、意味のある推論ステップを提供できます。
プロンプト
回答
12.対象物に関する情報探索
マルチモーダルの入力を元にパズルを解きます。画像内の物体を認識し、2つの物体をつなぐ共通点を特定します。
プロンプト
回答
13.視覚的手がかりに基づくマルチモーダル推論
画像に写っている物体(エンパイアステートビル)を識別し、画像にわずかな歪みがあっても、それが何であるかを認識します。また、画像に基づいて、撮影者の正確な位置を正しく特定することもできます。
プロンプト
回答
14.マルチモーダルなユーモアの理解
ミームのユーモアを説明します。 画像やプロンプトで文化的背景が明示的に言及されていない場合でも、画像内で何が起こっているかだけでなく、それが何を意味するかを説明する能力を示します。
プロンプト
回答
さいごに
Geminiの技術レポートについて、可能な限り情報の深さを保ちつつ、有意義な情報をピックアップして、読み解いてみました。
ここで省略した情報も多いので、興味を持った方は、ぜひ、技術レポートを読み解いてください。
また、生成AIのテクノロジーの進化について、広く深く考察したnoteもあるので、知的好奇心のある方は読んでみてください。
関連する話題として、以下の記事もどうぞ。