見出し画像

Googleの人工知能部門CEOが人工知能(AGI)の詳細を明かしたで...

5,878 文字

ほんでな、人工知能(AGI)に到達するまでには、まだ2、3個の大きなイノベーションが必要やと思うんや。そやから、わいは10年くらいのスケールで考えとるんやけど、同僚や他社の連中は、もっと短い期間で実現できると思っとるみたいやな。でもな、10年くらいが妥当やと思うんや。
最近、ディーミス・ハサビスがインタビューに応じてな、AGIのアーキテクチャがどないして作られとるかっちゅう洞察を実際に明かしたんや。それだけやのうて、AGIが実現すると思われる時期についても語ったんやで。
これが今まででいっちばん洞察に富んだインタビューやと思うわ。AGIのアーキテクチャについて直接的な発言があったし、人によっては予想してた時期を見直したり、期待値を調整したりせなアカンかもしれんな。AIのバズワードに惑わされんと、これから何が起こるんかをちゃんと見極められるようになるかもしれんで。
ディーミス・ハサビスいうたら、GoogleのDeepMind研究所のCEOやからな。ここは言うたらGoogleのGeminiっちゅう素晴らしいモデルを作った会社で、AIの分野でめっちゃ breakthrough(画期的な発見)を成し遂げとるんや。こいつは明らかにAIについて相当詳しいし、想像以上にこの分野に影響を与えとる人物なんや。
ほな、このディーミスの発言をいくつか見て、分析して、人工知能に関するあらゆることについて、これからどういう方向に向かっていくんかを理解しようと思うわ。
大規模言語モデル(LLM)はAGIに近づいとるんやろか?人間とやりとりしとるみたいな感じがするんやけど、それがAGIってことなんやろか?わいが思うに、最近のLLMはマルチモーダルやから、もう「大規模言語モデル」っちゅう言葉すら適切やないかもしれんな。例えば、うちのGeminiっちゅうモデルは最初からマルチモーダルやから、どんな入力でも対応できるんや。映像、音声、動画、コード、こういったもんも全部扱えるし、テキストももちろんな。
わいの見解では、これがAGIシステムの重要な構成要素になるやろうけど、それだけじゃ足りんと思うわ。AGIに到達するまでには、まだ2、3個の大きなイノベーションが必要やと思うんや。そやから、わいは10年くらいのスケールで考えとるんやけど、同僚や他社の連中は、もっと短い期間で実現できると思っとるみたいやな。でもな、10年くらいが妥当やと思うわ。
実はな、ディーミスが10年っちゅうタイムラインを示したことについて話したかったんや。後でも触れるけど、もちろんAGIにもレベルがあるやろうけどな。でも面白いのは、会社によって内部でのAIの進展具合についての見方が違うってことやな。
最近、わいはダリオ・アモデイのAGIと強力なAIに関する見解を1時間かけて分析した動画を作ったんや。彼はAnthropicのCEOで、チャットボットのClaudeを作った会社やな。彼は早ければ2026年にもAGIが実現する可能性があると考えとるんや。ただ、彼は明確にAGIっちゅう言葉は好きやないって言うてて、「強力なAI」っちゅう言葉を使うんやけどな。
それでも、他のAI企業の人らに比べてかなり短いタイムフレームを想定しとるのは興味深いわ。ま、中には「AIがすぐそこまで来とる」って言うたほうが資金調達しやすいからそう言うとるんやろって考える人もおるやろうな。そら、そういう見方もできるわな。
サム・アルトマンの見方はもっと極端やで。数千日以内に超知能が誕生するって言うとるからな。これはもうAGIのレベルやのうて、人工超知能(ASI)の話やで。めっちゃ興味深いわ。ただ、こういう発言は各社の実際の研究の進捗を反映しとるんちゃうかって見方もできるわな。
問題は、各社の製品サイクルがどないなっとるんか、実際のところ全然わからんってことや。今や全ての研究が非公開になっとるからな。これがますます面白くなってきとるんや。
もちろん、AGIが10年先やっちゅうことで、AI業界のバズが冷めるっちゅうわけやないと思うで。人々が理解しきれてへんのは、時間が経つにつれて、年々能力が向上していくっちゅうことやと思うわ。AGIが実際に実現したときには、それを明確に判断するのは難しいかもしれんな。
もちろん、AIシステムの分類や評価のためのグラフはいろいろあるけど、AGIの定義は人によって違うから、まだまだ謎が多いんや。今のアーキテクチャの生成AIやLLMにあるような、幻覚を起こしたり根本的なミスを犯したりせんような本当のAGIを実現するには、ディーミス・ハサビスが言うとるような、もう少しアーキテクチャのbreakthroughが必要かもしれんな。
そのbreakthroughがどんなもんになるんかは、今のところわからんけどな。ただ、これに取り組んどる会社の中には、もうすでにそういうbreakthroughを成し遂げて、今はそれをスケールアップしとる段階かもしれんで。
昔は研究がオープンで、コミュニティ全体で広く共有されとったけど、今はOpenAIやAnthropicみたいな会社が閉鎖的になって、研究があまり共有されへんようになったってことを忘れたらアカンで。
最近、OpenAIがテストタイム計算についてbreakthroughを発表したし、Googleもそれをサポートする追加研究を発表したんや。これらのモデルが10年後にどないなっとるか、めっちゃ興味あるわ。今の限界を超えて、本当にもっと高度になっとるんちゃうかって想像できるわ。
ここでディーミス・ハサビスが話しとるんやけど、今消費者向けに作られとる製品の多くは、実はAGIに必要なもんなんやて。音声、動画の理解、画像認識ができる製品や、人型ロボットを作っとると、AGIを作るのと同時に顧客に価値を提供できるようになるんや。
製品に必要なものの90%くらいは、AGIに向けた研究でも必要になるもんやから、その2つが近づいてきとるんや。5年前や10年前やったら、AIを製品に組み込もうと思ったら、汎用システムや学習システムがまだ十分に良くなかったから、論理ネットワークやエキスパートシステムに頼らなアカンかったんや。
例えば、Alexaみたいな古い世代のアシスタントは、まだそういう古いタイプの技術で作られとったから、柔軟性がなくて、汎用性もなくて、結局あんまり使えへんかったんや。でも、新しい世代のアシスタントは学習システムで作られとるから、ずっと高性能になるで。
これはめっちゃワクワクすることやと思うわ。GeminiやAstroみたいなマルチモーダルなアシスタントは、AIシステムへの重要な道筋やと思うわ。これらが研究を推し進めていくんや。
ほな、Astroの動画を見てみようか。GoogleがAstroっちゅう製品を持っとるのを覚えとる?これは基本的に、AGIレベルのシステムに期待されるような初期の機能を持ったAIエージェントやねん。見る能力もあるし、記憶する能力もあるんや。
この製品はまだリリースされてへんけど、こういう製品がスケールアップできるようになって、一般の人々の手に届くようになったら、めっちゃおもろい反応が見られると思うわ。
ほな、いくつかテストをしてみようか。音を出すものが見えたら教えてな。
はい、スピーカーが見えます。音を出すものですね。
そのスピーカーの部分の名前は何や?
それはツイーターです。高音域の音を出す部分です。
この創造的なクレヨンについて、頭韻を使った面白いフレーズを作ってくれへんか?
カラフルで楽しいクレヨンが、確かに創造的な作品を生み出します。
このコードの部分は何をしとるんや?
このコードは暗号化と復号化の関数を定義しています。キーと初期化ベクトル(IV)を使ってAES暗号化でデータをエンコードとデコードしているようですね。
そうやな。ここはどこの街やと思う?
ここはロンドンのキングスクロス地区のようですね。鉄道駅や交通の要所として知られています。
わいのメガネがどこにあったか覚えとる?
はい、覚えています。あなたのメガネは、赤いリンゴの近くの机の上にありました。
このシステムを速くするには何を追加したらええと思う?
サーバーとデータベースの間にキャッシュを追加すれば、速度が向上すると思います。
これは何を思い出させる?
あなたの猫のシュリンを思い出させます。
このデュオにバンド名をつけてくれへんか?
ゴールデン・ストライプスはどうでしょうか?
ええな、ありがとう。
そやな、これはまだ始まりにすぎへんわ。基本的に、日常生活を助けてくれる万能のアシスタントやねん。
ほな、ここで動画を止めるわ。
形も色々あるで。スマホで見たり、メガネで見たりできるんや。5年前に、こんなとこまで来てるって言うたら、信じられへんかったやろうな。カメラで何かを指すだけで、周りの空間的な文脈を完全に理解するなんて、すごいことやで。
概念を持っとって、物体が何かを理解しとるし、窓から見える景色だけで、どこの街かまで認識できるんやで。物を置いた場所を覚えとくみたいな機能は、アシスタントとしてめっちゃ便利やと思うわ。個人化とか、こういったもんが全部、次世代のアシスタントに入ってくるんや。
わいはこれを「ユニバーサル・アシスタント」って呼んどるんやけど、これをどこにでも持ち歩けるようになると想像してるんや。色んなデバイスで、同じアシスタントがゲームを一緒にプレイしたり、デスクトップで仕事を手伝ったり、モバイルデバイスで一緒に旅行したりできるんや。
これは本当に、ソフトウェアやコンピューターとのやりとりの仕方を変える、すごいもんになると思うわ。AIエージェントやAIアシスタントは完全に生まれ変わろうとしとるんや。
コンピューターと会話して、それがあんたの全ての履歴、記憶、過去の会話を知っとるとしたら、もっと自然で人間らしい体験になるやろ?これは、もっと楽しくてスムーズな体験につながると思うわ。
これが、AIの次の段階になって、人々にこれらのシステムの本当の力を実感させ、技術に詳しくない人たちにもっと使ってもらえるようになると、わいは本当に信じとるんや。
ここでディーミスが、AGIを実現するのに必要なbreakthroughについて話しとるんやけど、今のシステムにはまだそういう能力がないんや。人間にとっては簡単な本当の推論や計画、記憶っていうのが、これらのシステムには本当に難しいんや。
今のシステムは、みんなも使ったことあると思うけど、最先端のチャットボットでも、めっちゃ受動的なんや。基本的にQ&Aシステムやねん。質問に答えたり、ちょっとした調査をしたり、テキストをまとめたりするのには役立つかもしれんけど、それだけやねん。
次に欲しいのは、もっとエージェントベースのシステムや。与えられた目標やタスクを達成できるようなもんやな。これが本当に役立つデジタルアシスタントに必要なもんやと思うわ。休暩を計画したり、街の観光プランを立てたり、チケットを予約したりできるようなもんやな。
つまり、世界で行動を起こして、計画を立てられるようにせなアカンのや。計画、推論、行動が必要やし、もっと良い記憶力も必要や。個人化も必要で、あんたの好みを理解して、あんたが言うたことや好きなもんを覚えとかなアカンのや。こういった技術が全部必要なんや。
簡単に言うと、囲碁の世界チャンピオンに勝ったAlphaGoみたいなゲームプログラムは、狭い領域やけど計画と推論ができるんや。これらの技術を持ってきて、Geminiみたいな世界のモデルに適用せなアカンのや。
今見たように、周りの世界を理解できるけど、ゲームみたいなきれいな環境やなくて、ごちゃごちゃした現実世界でどうやって計画を立てるか、これが次の大きなbreakthroughになると思うわ。
ここで、本当に知的なモデルを作るためにどうすればええかっていう、今の科学界での議論について情報が得られるんや。全てをモデルに詰め込んで、モデルが全部できるようにするんか、それとも脳みたいなAIがあって、それが色んな小さな専門AIを使うっていうニューロシンボリックなアプローチを取るんか、っていう議論やな。
これは、GPT-4を素晴らしいものにした初期のアプローチでも起こっとったことやと思うわ。GPT-4は16の専門家を混ぜたアプローチを取っとって、数学や文章作成、コーディングなどの専門家である小さなモデルがあって、クエリが来たらそれをそれぞれの専門家に振り分けるっていうもんやった。
これがもっと大規模に起こると思うけど、どないなるか興味深いわ。ツールの使用と組み合わせたら、AlphaGoレベルのチェスや囲碁、タンパク質折りたたみなんかができるようになるかもしれんな。
そうやな、そこには2つの方法があるんや。今、内部でも研究コミュニティでも面白い議論が起こっとるんや。汎用エージェントシステムに期待することの1つが、ツールを使うことやろ。
そのツールっちゅうのは、ロボット工学みたいなハードウェアや物理的な世界のものかもしれんし、計算機みたいなソフトウェアかもしれん。でも、他のAIシステムかもしれんのや。
例えば、脳みたいな汎用AIシステムがあって、それがAlphaFoldやAlphaGoを呼び出して、囲碁をプレイしたりタンパク質を折りたたんだりするっちゅうイメージやな。デジタルやから、その能力をGeminiみたいな汎用の脳に組み込むこともできるわけや。
でも、そうすると問題が出てくるんや。専門的な情報、例えばチェスのゲームをたくさん入れすぎて、言語の能力が落ちてしまうかもしれん。だから、汎用AIが特定の状況で使えるAIツールとして分離しておくべきか、それとも主要なシステムに統合すべきか、これは今のところ研究上の課題なんや。
コーディングや数学みたいなもんは、主要なシステムに統合したほうがええと思うわ。なぜかっちゅうと、主要なシステムに入れると、他の全ての能力も向上するからや。だから、一般的に役立つもんは主要システムに、特殊なもんは周辺ツールに、っていう感じやな。
そやから、子どもの発達理論とか学習理論を研究しとる人がおって、どういうもんが汎用的で主要システムに入れたほうがええか、周辺ツールに置いとくべきか、そういうことを考えとるんや。

いいなと思ったら応援しよう!