AI ニュース: GPT5は予想以上に優れたものに、Gemini 2で中国が先行、Googleの新しいロボット

2024年7月22日 07:08

AIグリッドにようこそ。今日は、AIに関する最新トピックをいくつか見ていきます。その1つが、AIが今後も進化し続けるという事実です。
現在、AIテクノロジーに関して最近の見方があります。多くの人々は、私たちがガートナーのハイプサイクルの頂点に近づいていると考えています。つまり、私たちは幻滅の谷に向かっているということです。現在、私たちは期待の膨らみのピークにいるようで、これが私たちの向かう先だと言われています。
私は、これがある程度は真実だと思います。現在の状況では、AIの発展が欠如しているように見えます。ただし、「見える」という言葉に強調を置いています。今年得られた驚くべきモデルのリリースを思い出す必要があります。また、まだ行っていない2つの重要なことがあることも覚えておく必要があります。
1つ目は、私たちがまだ利用可能な計算能力を使い果たしていないということです。最近トレーニングされたモデルは、1億ドルまでしかトレーニングされていません。これは驚異的な数字に思えますし、単一のAIシステムへの投資としては確かに驚くべき額です。しかし、今後数か月または数年以内に10億ドルや100億ドルのトレーニングが行われる可能性があることを認識する必要があります。つまり、スケーリング則によって得られるリターンの量は、非常に高い可能性があるということです。
これは、人々が幻滅の谷があり、ハイプが収まりつつあると考えているにもかかわらず、そうではないと私が主張する理由です。AIは、ほぼすべてのものに影響を与える技術であることを忘れてはいけません。
私たちはまだ、スケールアップに関して収穫逓減の段階には達していません。人々に理解してもらおうとしていますが、指数関数的な成長があるのです。残念なことに、数年に一度しかサンプリングできません。なぜなら、スーパーコンピューターを構築し、その上でモデルをトレーニングするには時間がかかるからです。次のサンプルがやってきます。いつになるかは正確には言えませんし、どれほど優れているかも予測できませんが、ほぼ確実に、現在脆弱な部分は改善されるでしょう。「ああ、これは少し高すぎる」とか「使うには少し不安定すぎる」と思っているような部分は、すべて良くなります。より安価になり、より安定するでしょう。そして、より複雑なことが可能になります。これが、私たちがスケールアップしてきた各世代のモデルの歴史です。
これは、マイクロソフトのCTOであるケビン・スコットが、私がAI分野について信じていることを確認しているのです。これは驚くべきことではありません。最近の人々は、Claude 3のアーティファクトで何ができるのかを忘れてしまったのでしょうか。このモデルは、GPT-4よりもわずかに優れているだけで、ユーザーの好みによってはGPT-4よりも劣る場合もあります。
Claude 3.5 Sonnetがコードで何ができるかを見れば、それが完全にゲームチェンジングであることがわかります。そして、これはまだClaude 3.5 Opusではありません。次世代のモデルなのです。ですので、次のモデルリリースで何が起こるか、人々は本当に理解できないと私は信じています。Gemini 2やClaude 3.5 Opus、GPT-5のようなシステムは、現在私たちが持っているものや、AIが現在できると認識しているものを完全に打ち砕くでしょう。
将来のモデルについて話すと、Gemini 2に関する最近のツイートがありました。チャットボットアリーナに新しいモデルが登場したのです。チャットボットアリーナをご存じない方のために説明すると、主要なフロンティアラボが、モデルの能力に関する初期データを実際の環境で収集する場所です。あなたがモデルに質問をすると、2つのモデルが応答します。時々、テストモデルが出てくることがあります。ここでは「Gemini test」というタイトルが見えます。これは、何らかの形でGeminiをテストしているということです。
一部の人々は、これはおそらくGemini Visionの専用モデルだろうと推測していますが、他の人々はこれがGemini 2.0だと述べています。Gemini 2.0は数か月前にトレーニングを開始したことを覚えておいてください。Googleが製品リリースや開発の面でOpenAIに遅れをとっていることを考えると、そしてGoogleが最近ソフトウェアのリリースにおいてより積極的なアプローチを取っていることを考えると、チャットボットアリーナでGemini 2をテストして、特定のモデルと比較してどのようなパフォーマンスを示すか、そして特定のベンチマークでどのようなパフォーマンスを示すかを確認している可能性が非常に高いです。
この例では、誰かが自分の携帯電話で撮った写真を入力し、Geminiシステムが個人の画像から正確な位置を特定できたことがわかりました。これが非常に印象的な理由は2つあります。1つは、モデルが画像を見ただけで正確にどこにいるかを理解したこと、これは見たものに基づいてあなたの位置を知ることができるという点で絶対的に素晴らしいことです。もう1つは、Googleのデータを使用して、この人物がどこにいるかを地理的に特定できたことです。これもまたかなりクールです。
OpenAI開発者向けの小さな情報として、実際にプレイグラウンドでテキスト読み上げAPIを入手しました。ChatGPTのテキスト読み上げ機能を使用したことがある人、つまり質問をして、それが話し返してくる機能を使いたいと思ったことがある人には、これは実際にかなりクールな機能です。この動画にこれを含めたのは、一部の人々がこれが機能であることを知りたがっているかもしれないと思ったからです。
主要なリスクについて、説得力に関する大きなリスクがあると思います。非常に強力に特定のことを行うよう人々を説得することができ、特定のことを行うよう人々をコントロールすることができます。これは、社会を特定の方向にコントロールするという点で、非常に怖いことだと思います。現在のシステムは、説得や思考方法、信念に影響を与える能力が非常に高いです。これは私たちが長い間研究してきたことで、本当の問題だと信じています。これは大きく悪化する可能性があります。
特に過去1年間、私たちは選挙の整合性を支援することに非常に焦点を当ててきました。私たちが行っている取り組みがいくつかあります。まず第一に、できる限り乱用を防止しようとしています。これには、政治的情報の検出の精度を向上させ、プラットフォームで何が起こっているかを理解し、それが発生したときに迅速に行動することが含まれます。
2つ目は、政治的バイアスを減らすことです。ChatGPTが過度にリベラルだと批判されたのを見たかもしれません。それはイーロンが言ったことですね。他にも声はありましたが、重要なのは、それが意図的ではなかったということです。私たちはモデルの行動における政治的バイアスを減らすために懸命に働いており、これを続けていきます。そして、幻覚についても同様です。
3つ目は、人々が投票すべき場所や投票情報を探しているときに、正しい情報を指し示すことです。
これは、AIの開発に関してあまり語られていないトピックです。なぜなら、AIシステムが積極的にあなたの意見を変えているかどうかを検出するのが非常に難しいからです。通常、AIが試みることは、常に公平でバランスの取れた意見を提供しようとすることです。例えば、AIに何かについての意見を聞くと、通常はAかBのどちらかを選択できると言いますが、常に人次第だと言います。したがって、これらのシステムがあなたを説得しようとしているかどうかを理解するのは非常に難しいのです。
彼らが言ったことで非常に重要だと思われるのは、AIシステムがリリースされる日付を予測しようとしている場合、彼らが話していたのは、説得力のあるAIシステムは選挙の整合性を維持するためにそれらのシステムを望まないだろうということです。もちろん、現在は非常に緊張した時期です。なぜなら、前大統領が最近暗殺未遂を受けたからです。これはまったく驚くべきことで、そのようなことが起こり得たという事実自体が驚きです。
もしOpenAIがこの時期に将来のシステムであるGPT-5をリリースすれば、OpenAIは確実に微妙な立場に置かれることになるでしょう。将来の開発に影響を与える特定の法律や規制が可決される可能性があります。OpenAIのリリースに注目していない人のために説明すると、彼らの以前のAIシステムのリリースは、厳しい精査と批判の対象となりました。例えば、GPT-4がリリースされたのは、わずか1、2か月後に人々が「スローダウンする必要がある」と言い始めた時期でした。なぜなら、このモデルは非常に高度すぎるからです。そして、GPT-5は文字通り、ただ...それはただ多すぎるのです。
さらに、Soraがリリースされたときも、多くの個人から大きな抗議がありました。文字通り、ある人のツイートを引用すると、「自殺する必要がある」と言われたのです。OpenAIはこれらのシステムをリリースする方法について非常に慎重になる必要があると思います。そうしないと、より悪い立場に置かれることになります。なぜなら、これらのシステムがより能力が高くなるにつれて、より多くのことができるようになり、社会にさらに大きな影響を与える可能性があるからです。
これは、超人的な説得力を持つ可能性のある真に能力の高いシステムを、どのようにして野生の中でリリースするのかという疑問につながります。これは、OpenAIに答えを委ねる質問です。
再び、中国が先行しているように見えるかもしれません。これは私にとって驚きではありません。なぜなら、私はAI開発のあらゆる分野に注目してきており、中国が開発している種類のものについて急速に前進していることを知っているからです。彼らが継続的に焦点を当ててきたことの1つは、もちろんフロンティアモデルです。最近、GPT-4に追いつき、さらにClaude 3.5 Sonnetを凌駕したようです。
これらのモデルを本当にテストできる場所があればいいのですが。中国のモデル、例えばGlingや中科環信のモデルにアクセスするのは非常に難しいことは知っています。しかし、私が考えずにいられないのは、多くの企業がこれらのモデルを急いでリリースし、ベンチマークでわずかに良い結果を出しているということです。これは、モデルの能力が誇張されている可能性があることを示唆しています。なぜなら、モデルができることの違いがとても小さいため、これらの結果が実際に真実かどうかを分析するのが非常に難しいからです。
平均スコアがGPT-4と同点であることがわかります。そして、MMU、Math Vistaでは、中科環信5.5が以前のすべての反復を凌駕しているようです。例えば、私たちはClaude 3.5 Sonnetがいかに優れているかを知っています。このモデルがいかにスマートであるかに私は驚いています。ほぼ毎日使用していますが、GPT-4との違いは驚くほど大きいです。つまり、このモデルがGPT-4とClaude 3.5 Sonnetよりもさらに優れていると主張しているのであれば、これを確認できるようなテストやビデオを見てみたいと本当に思います。
また、興味深かったのは、この小さなビデオデモを見たことです。リンクは説明欄に載せておきます。実際に翻訳しようとしましたが、エコーと翻訳が完全に外れていたので、うまくいきませんでした。要するに、中科環信4.0または中科環信5のライブデモビデオがありました。これは基本的に彼らのバージョンのChatGPTで、あなたと会話するものです。カメラがあり、音声モードがあり、リアルタイムの精度で会話し返答するAIシステムがあるのがわかります。
これがどれほど優れているかはわかりません。前に言ったように、これらのシステムにアクセスするのは非常に難しいですが、本当に驚くのは、これらのフロンティアモデルの開発速度です。誰かがそこに行ってこれらのモデルをテストし、西洋のモデルと1対1で比較できれば面白いでしょう。しかし、それまでは、これらのモデルがどれほど能力があるかについては、彼らの言葉を信じるしかありません。そして、これがおそらく、このように優れたモデルを開発する最後の企業ではないでしょう。
最近、I 1.5 Pro長文脈ウィンドウがテストされ、ロボットに統合されました。彼らは、多くのAIモデルにとって限られた文脈が環境を再現する上で課題となっていると述べています。Gemini 1.5 Proの100万トークンの文脈長を搭載したことで、私たちのロボットは人間の指示、ビデオツアー、常識的な推論を使用して、空間内を成功裏に移動できるようになりました。
彼らは実世界の設定で特定の場所にロボットを連れて行き、ルーのデスクや一時的なデスクエリアなどの重要な場所を強調しました。その後、これらの場所に案内するよう求められました。
「こんにちは、ロボット。ツアーに行きましょう。」
「はい、こちらがルーのデスクです。」
「こちらには、みんなのためのオープンな別々のデスクがあります。」
「やあ、ロボット。私はルーです。一時的なデスクに連れて行ってくれますか？」
「はい、Geminiで考えています。少々お待ちください。行きましょう。」
「このテンポラリーデスクはあなたのために予約されています。」
「ありがとう。なんて素敵なんでしょう。」
これらのモデルがより能力を高めていくにつれて、ロボットに統合されていくことは明らかです。そして、私たちはその進化がどのように起こるかをゆっくりと見始めています。
また、より多様なマルチモーダル指示を提供する別のビデオデモもありました。例えば、ホワイトボード上の地図のスケッチ、ツアーで言及された場所を参照する音声リクエスト、おもちゃの箱のような視覚的手がかりなどです。
「ねえロボット、何かを描く場所に連れて行ってくれる？」
「はい、Geminiで考えています。少々お待ちください。行きましょう。」
「おめでとうございます。目標に到達しました。ホワイトボードに描くことができます。」
「ありがとう、ロボット。」
ロボットに関するさらなるニュースでは、新しいOptimusのデザインが今年後半に完成する予定で、それは特別なものだそうです。最近のロボット工学とAIの発展を考えると、実際にそれがどのように見えるのか、画像が得られるのか気になります。
また、ここに興味深いクリップがあります。これは、多くの人々がロボット工学とAIについて考えるかもしれないことについての興味深い進化を示しています。ご記憶の通り、ニューラリンクは人々が思考で制御系システムと話すことを可能にする本当に能力の高いシステムです。ここでは、イーロン・マスクと彼のチームが、ニューラリンクを使用してOptimusの特定の部分を制御する可能性について基本的に話しています。
「一般的に、Bluetoothインターフェースを持つもの、潜在的にはOptimusを含めて、はい。」
「はい、絶対にOptimusとコミュニケーションを取ることができます。」
「Optimusと話すこともできますが、なぜ直接ビームしないのですか？」
「ただビームすることもできます。」
「もし誰かが発話能力を失っても、まだOptimusとコミュニケーションを取ることができます。」
「Optimusと精神的に、あるいはBluetoothを介してコミュニケーションを取ることができます。」
「つまり、誰かが完全に話す能力を失っても、まだOptimusや彼らのコンピュータ、電話を制御することができます。」
「また、Optimusを持っていて、ニューラリンクを持っている場合、脳信号をロボットの物理的な装甲の制御にマッピングすることができ、それは非常に意味のあることです。」
「例えば、怪我をした人々の最大の要望の1つは、かゆみを掻くことができることです。顔にかゆみがあって、掻くまで眠れないというのは非常に不便です。」
「物理的に何かを自分の方に動かすことができるのは非常に便利です。」
「食事をするのも同様です。友人と普通の社会的な経験として夕食を取るのが非常に難しい場合、自分でフォークを取って実際にピザやチキンを食べることができれば、それは大きなことです。」
「介護者や生活の中で頼りにしている他の人々とのやり取りを多く省くことができます。」
「長期的には、興奮させられる可能性もあります。例えば、Optimus人型ロボットの一部を取り、ニューラリンクと組み合わせたとします。」
「誰かが腕や脚を失った場合、実際にOptimusの腕やOptimusの脚を取り付け、ニューラリンクのインプラントを行うことができます。」
「そうすれば、あなたの脳からの運動コマンドが生物学的な腕に行くはずだったものが、今はロボットの腕やロボットの脚に行くようになります。」
「基本的にサイバネティックな超能力を持つことになります。」
「ニューラリンクから手への遅延は、おそらく物理的な手に行くよりも少し速くなるでしょう。」
「ピアノ奏者や、非常に速い手の動きを必要とする何かを想像してみてください。実際に右手のロボット制御と左手の物理的な腕の制御の間でかなりのアンバランスがあるかもしれません。」
「それが1つの例です。」
「そうですね、これはちょっとサイバーパンクのような未来ですね。サイバネティックアップグレードが生物学的なものよりも実際に優れている未来です。」
最近誰かと議論した別の興味深いトピックは、AIによるメディアコンテンツの超個人化が、かつて共有されていた現実の分断につながり、基本的に皆が異なる宇宙に住むことになる可能性があるということでした。
「昔は製品配置がありました。すべてのマーベル映画にコカコーラの缶が出てきたりしました。」
「今では、あなたの携帯電話やその他から収集したすべてのデータに基づいて、マーベル映画に独自の製品が登場することになるでしょう。」
「これが現実を少し分断します。そして、現実の共有が限られた商品であるなら、突然、それが最も怖いことになります。」
「道を挟んだ向こうの人と話をしても、もはや同じ宇宙に住んでいないかもしれません。なぜなら、あなたが見たことのないビデオやメディアを消費しているからです。」
「AIの背後にあるこの都市は、ツールが使用される方法に組み込まれているのです。」
興味深いことに、イーロン・マスクはこれに対して「あなたは間違っていない」と応答しています。私は、これは人々が考えているよりもずっと先の話だと思います。これが起こらないという意味ではありませんが、私たちのフィードがすでにいかに狂っていて個人化されているかを考える必要があります。
例えば、私たちのホームフィードは現在、すべて驚くほど異なっています。確かに、あなたの友人の中には似たような興味を持っている人もいるかもしれませんし、似たようなものに興味を持っているかもしれません。しかし、他の誰のフィードとまったく同じものはないと言えるでしょう。誰もが見ているものは、それぞれ異なるアルゴリズムと好み、最近見たもの、以前見たもの、好きではないものに基づいています。
そう考えると、特定のソーシャルメディアアプリで、完全に超個人化された世界全体を持つ異なる現実に私たちは住むことになるのでしょうか。
ある程度の共有された現実は常に存在すると思います。なぜなら、人々が知りたがる現実世界で起こることは常にあるからです。例えば、現在のトランプ暗殺未遂事件や、グローバルなIT障害などです。これらは人々が常に話題にし、つながっているものだと思います。私たちはまだ同じ世界に住んでいます。
しかし、人々が自分自身の世界に入り込み、自分だけのテレビ番組を見て、すべてが自分に合わせて独自のものになる、その分岐点がどの時点で来るのか、私は不思議に思います。奇妙な未来になるでしょう。おそらく20年後くらいに起こることかもしれません。いや、20年後と言うと非常に奇妙に聞こえますね。多分10年後くらいでしょうか。

AI ニュース: GPT5は予想以上に優れたものに、Gemini 2で中国が先行、Googleの新しいロボット

いいなと思ったら応援しよう！