【超速報】 GoogleのGeminiのデモ動画は本当にフェイクなのか?
先に結論
Geminiに与えられたテキストや回答文は、実際のものから編集されており、その編集は「恣意的」なものであった可能性が高い。
特に冒頭に与える指示文に、精度を向上させることに特化した文章が含まれていたよう。
回答生成時間が実際と同じなのか、動画の入力をどう扱ったのかなど、依然として不審な点が多くある。
※ 2023/12/8 16:30までの情報をもとに執筆しています。変更があれば適宜追記していきます。
これまでの経緯
昨日GoogleがGPT-4越えのAIモデル「Gemini」を発表し、そのデモ動画が、大きな話題を呼びました。このデモ動画ではAIが人間の動きに合わせてリアルタイムで様々な高度な応答をしている様子が収録されており、「衝撃的」「GoogleがOpenAIを追い越した」などと世界中で称賛されました。
しかし今日になって、テックメディア大手TechCrunchが、「Geminiのデモ動画はフェイクだった」と強烈な見出しでこの動画を批判しました。
TechCrunchによる批判の内容
発端は、Googleがデモ動画公開と同時に、投稿した"How it’s Made" という記事でした。デモで実演されたタスクに関してプロンプト・回答文が公開されていたのですが、これは、デモでのプロンプト・回答文と大きく異なるものでした。
例えば、デモ動画の2分45秒では、グー・チョキ・パーと一連のジェスチャーをする手が映し出され、それに被せる形で、Geminiは 「You're playing Rock, Paper, Scissors! (ジャンケンしてるんでしょ!) 」と答えています。ここでは、何もプロンプトが表示されていません。
しかし記事では、グー・チョキ・パーの画像をご丁寧にも一つずつ与えた上で「What do you think I'm doing? Hint: it's a game.」とヒントつきのプロンプトを与えて、ようやく同じ出力を得ています。
TechCrunchはこの点を指摘し、
と述べました。
Google側の反論
この記事が出版されてからまもなく、反論する形で、DeepMindのVP of ResearchであるOriol Vinyalsより、以下の「証拠動画」を含んだSNS投稿がなされました。
証拠動画では、「惑星たちを実際の位置関係になるように並び替える」「2つの車の絵を見て、どちらがより空気力学的に優れているかを答える」といったデモで実演された内の一部(5つ)のタスクに関して、Gemini Proの実際の挙動が示されています。コメントを一部抜粋します:
しかしこの証拠動画には違和感があり、これはTechCrunchの批判への反論としては十分なものではなさそうです。
筆者の感じる違和感と反論できていない点
まず、「簡潔にするために短縮した」という入力文についてですが、デモでは、以下の指示文をごっそり省略したということになります。
これは明らかに、惑星たちを並び替えるタスクや、空気力学的に優れている車を答えるタスクでの性能が上がるように仕込まれた文章であり、「簡潔にするために短縮した」という主張を受け入れることは到底できません。
出力に関しても、証拠動画とデモ動画とでやや結果が異なります。例えば、以下のような画像を入力し、「アヒルはどっちに行くべき?」と尋ねるタスクについて見てみます。
デモ動画では、
と分かりやすく回答されているのに対し、証拠動画では、
と論理が弱く、分かりにくい文章になっています。
Oriol Vinyalsが「LLMでは常に多少のばらつきがあります」と言っている通り、確かにシード値等によって回答が変わることはありますが、多少の編集がなされている可能性を否定することはできません。
他にも、
回答生成時間が実際と同じなのか(添付の動画では、デモ時より生成時間が全体的に長い)
動画の入力をどう扱ったのか(前述の通り、Google が公開した記事においては、都合の良く切り取られた画像が数枚入力として与えられている)
といった点については反論がなされていません。
なおTechCrunchは、証拠動画公開後に記事の内容を更新しており、以下のような痛烈な皮肉を浴びせています。
重要な補足
Gemini には、性能の高いものから、Ultra, Pro, Nanoという3つのモデルがあり、証拠動画で示されていたのは、真ん中のProの出力です。それゆえ、数々の指標でGPT-4越えを達成しているGemini Ultraの性能は、証拠動画の数段上と理解しておくべきでしょう。
運営元の紹介
私たちは sayhi2.ai というサイトを作成しています。5000以上のAIツールを掲載しており、様々なAIツールを調査、深掘りすることができます。ぜひお試しください!
文章や目的を入力するだけでツールを探せる
実際にツールを試さずともChatbotが答えてくれる
厳選された5,000以上のAIツールから欲しいツールを見つけられる
独自のスコアリングアルゴリズムによるAIプロダクトの人気度の推定
またXでは、AIツールや関連するニュース・トレンドに関して、一段踏み込んだ考察を交えながら日々情報発信しています。是非こちらもフォローしてみてください!