見出し画像

シェイン グウ、Google で成し遂げたいこと

*本 note は、Google がシェイン グウにインタビューした内容を編集して掲載しています。また、Gemini を含む生成 AI の利用に関する説明は例示を目的としています。実際の回答結果については、ご自身で正確性をご確認いただくようお願いいたします。

こんにちは。Google の AI「Gemini(ジェミニ)」の公式 note 編集部です。今回は日本のみなさんに、Google の AI についてより理解を深めていただくために、Google DeepMind で Gemini モデルの日本語対応にも深く関わっている、Google 社員のシェイン グウのインタビュー(全 3 回)をお届けします。

シェインは、幼少期を日本で過ごし、カナダ、イギリス、ドイツ、アメリカで研究を重ねてきました。彼の研究テーマはディープラーニング、生成 AI、強化学習など多岐にわたり、手掛けた論文は業界に多大な影響を与えています。

そんな彼が現在 Google で取り組んでいること、 Gemini を多くの人に使ってもらうために必要だと考えることについて聞きました。


2 つの組織が共創して誕生した「Gemini」

-DeepMind と Google Brain という 2 つの組織が統合され、Google DeepMind が発足したのが 2023 年 4 月。8 か月後の 2023 年 12 月、Gemini が発表されました。そして前回のインタビューでシェインさんは、Gemini に携わりながら「AI と UX の両方から隙間を埋めていきたい」と話してくださいました。今回は、まずはそこから、もう少し詳しくお聞かせいただけますか?

シェイン:DeepMind と Google Brain は AI 研究という大きな枠の中ではライバルともとれる関係でした。過去 10 年間、DeepMind と Google Brain は、Google における AI 研究の原動力となり、研究上のブレークスルーのいくつかを担いました。前にお話ししたことと少し重複しますが、2015 年の DeepMind による AlphaGo の発表、2017 年に Google Brain が発明した Transformer アーキテクチャは中でも有名なのかなと思いますね。

それぞれの組織で、異なるエンジニアが、異なるコードベースで、別々に極めてきた 2 つの AI が 1 つになって生まれたのが、マルチモーダル AI モデルの Gemini です。
 
DeepMind と、Google Brain の組み合わせは最強で、Gemini 1.0 のリリースから Gemini 1.5 にバージョンアップするまで、2 か月しか経っていません。このスピード感は、いよいよ本領発揮モードになったと感じています。

-Gemini 1.5 Pro のさらに新しいモデルが公開され、そのモデルが lmsys.org のブラインドテスト*で総合 1 位と評価されましたね!

シェイン:はい、「日本語」では 6 月にも同率 1 位を得ることができていましたが、「総合」となると、これまでは OpenAI 社の独壇場でしたので、初の快挙だと思っています。
 
さらに特筆すべきは、今回のモデル、Gemini 1.5 Pro (0801)の多言語能力です。lmsys.org では、評価対象となった全言語(日本語、中国語、ドイツ語、ロシア語)で 1 位を獲得しているんです!
 
これを励みに、私自身も、世界中のあらゆる言語を話す人々の役に立つ言語モデルを作るために研究開発を加速させていきたいと思っています。
 
それともう 1 つ、Gemini API の対応言語も拡大しています。最近、Gemini 1.5 Pro と Gemini 1.5 Flash という 2 モデルが 100 以上の言語に対応しました。これによって、世界中の開発者が好きな言語でプロンプトを入力し、出力を受け取れるようになりますよね。そして Gemini API と Google AI Studio から、Gemini 1.5 Flash テキスト チューニングを行える機能も開発者向けに提供開始しました。このことで、さまざまな制約が解消されたり、コストが削減されたりするはずです。今後、世の中でどんどん Gemini API を使ってサービスが構築されていくことを期待したいですね。

-研究者の立場から見ると、Google DeepMind はどんな組織ですか?

シェイン:まず 1 つ言えるのは、能力が高く熱意もある研究者が集まる場所であるということです。常に刺激を受け、新しいアウトプットを生み出すことができます。そしてもう 1 つ、「責任を持って AI を構築し、人類に利益をもたらす」という組織のミッションに、研究者として共感しています。科学者、エンジニア、倫理学者など、多様な専門家からなるチームが、このミッションの下、次世代の AI システムを安全かつ責任を持って構築するために取り組んでいる組織だと感じています。
 
* lmsys.org は、カリフォルニア大学バークレー校の教授と学生が設立した研究組織です。生成 AI を評価するアプリに関する論文も公開していて、同サイトから紹介されています。https://lmsys.org/projects/

みんなが使える生成 AI を実現するには UX が重要

-シェインさん自身も Gemini の新しい研究チームを日本で作りはじめていると伺いましたが、Google DeepMind の中で日本はどのような位置付けなのでしょうか。

シェイン:日本は以前から Google の AI 研究開発拠点の 1 つであり、日本のエンジニアや研究者を採用し、さまざまなテーマに取り組んできました。2010 年には、最初の研究開発チームとして、Google 翻訳チームを日本に設立しました。2018 年には Google Brain Japan が発足し、2023 年の DeepMind と Google Brainの統合に伴い、Google DeepMind Japan に改組されました。

日本の研究チームでは、マルチモーダル AI、Gemini モデルの開発、音声・言語・画像・動画などのモダリティの理解と生成に関する研究・強化学習・生成モデルなどの基礎研究が行われており、日本語をはじめとする日本固有の課題やグローバルな課題に取り組んでいます。その研究成果は Gemini の中にも生かされています。
 
私自身は、Gemini 1.5 Pro と Gemini 1.5 Flash の英語以外の言語の事後学習を担当していますが、本領発揮モードになった生成 AI 開発で重要になるのは、UX だと考えています。
 
もっと多くの一般の方に使ってほしいと思ったとき、生成 AI の性能を上げることは当然として、やはり UX が欠かせません。どのくらい、人が意識せずに AI を使うことができるか、知らないうちに自分の作業の一部になって溶け込める UX を作ることができるか、ですね。
 
-そんな UX はどのように開発していきますか?
 
シェイン:まずはミニマムなプロダクトを開発する。それを使ってもらって改善点を聞きながら最適化していく。改善するために必要になる技術、例えば言語モデル、動画の生成や理解、音声インタラクション、リアルタイム処理などがそろうのは早いと思います。そうやって本当に使いやすいものができたら、自然と多くの人が受け入れられる UX になっているはずです。
 
1 つのアイデアとして、Google の社員の半分以上が毎日使うような UX を作るのが近道ではないでしょうか。まずは個人で自分向けの Gemini を作って、周囲の人に共有してフィードバックをもらったりアイデアを合体させたりしながら、Google 社員が自信を持って使いやすいと言える AI、UX ができたときに世の中に出せば、いいものができそうだなと思います。

50 歳までに実現したいこと

-Google でのシェインさんご自身の目標をお聞かせいただけますか?
 
シェイン:バック グラウンドで話したように、私はロボティックス及び生成 AI の基礎を学ぶために画像生成について研究していたので、ロボティックス及び生成モデルの研究者たちとも親しくしています。そこで多くの研究者が同意しているのが、15 年後には、AI の UX がロボットやヒューマノイドになっているだろうということです。それはつまり、それほど遠くない未来、少なくとも私たちが死ぬ前には実現できるだろうということなんです。
 
まずはきっと、ヒューマノイドを構築する代わりに、携帯電話の中に住むデジタルエージェントを構築するというアプローチが可能でしょう。これらのデジタルエージェントは、ヒューマノイドと同様に、携帯電話のカメラを通して 3 次元空間と動的な現実世界を理解する必要がありますが、これってデジモンやロックマンエグゼのような、子どもの頃に夢中だった漫画やアニメの世界、そこで描かれていた未来なんです。だから、まずはこれを目指して、人と話しながら動画をリアルタイムに理解して、カメラをかざすことで現実世界を理解して、人間を助けてくれる、そんな AI を作りたいです。

Gemini プロトタイプの日本語版デモ動画より。カメラをかざしながら Gemini に「この場所はどこかわかりますか?」と語りかけると、カメラ経由で周囲の状況を理解し、「Google オフィスのように見えますね」と答えてます。

そのとき、エージェントが「本当に役立つ」ためには、人間と同じように、3 つのことができなければならないと考えています。3 つとは、「複雑で動的な世界を理解すること」「見たり聞いたりしたものを記憶すること」「教育可能でパーソナルであること」です。 それらを統合しながら、今、我々がしているような「実際の会話」と同様のペースで会話することは、技術的にはとても難しい課題なのです。ただし、ここ 1 〜 2 年の各研究チームの成し遂げた成果を見ると、近い将来、日常生活に役立つユニバーサルなエージェントの構築も、より現実的になってきたと思います。

ヒューマノイドのいる世界の実現を、責任を持って成し遂げたいですね。


連載 シェイン グウ インタビュー

この記事が参加している募集