見出し画像

Gemini 2.0を搭載したGoogleの新しいAI『JARVIS』は強すぎるかもしれない

4,153 文字

みなさん、Googleの最新で、おそらく最もワイルドなAI実験についてお話ししましょか。これは単に質問に答えたり、テキストを生成したりするだけやなくて、実際にあなたのコンピューターを使用してくれるAIなんです。そう、Project JARVISのことですわ。
もしかして「アイアンマンのJARVISみたいなもんか?」って思われたかもしれませんが、まさにその通りです。これはGoogleによる、単なるアシスタントを超えて、ブラウザー内での反復的なタスクを積極的に引き継ぐAIへの挑戦なんです。具体的にはChromeブラウザーでの使用を想定してます。
では、Project JARVISについて詳しく見ていきましょか。Googleの新しいGemini 2.0モデルを基盤に構築されたJARVISは、調査やフライトの予約、オンラインショッピング、価格比較など、通常はご自身で管理するようなタスクを処理できる完全自律型のコンピューター使用エージェントとして設計されてます。
従来のモデルと違って、Gemini 2.0は特定の入力タイプを処理する小規模な専門家ネットワークを持つTransformerやmixture of expertsなどの先進的なアーキテクチャーを基盤としています。この独自のセットアップにより、JARVISは最小限の計算努力で効率的なリアルタイムのウェブ自動化のための最適な経路を選択できるんです。
でも、すでにチャットボットやバーチャルアシスタントがある中で、なぜウェブブラウザーを実行するAIが必要なんでしょうか?MicrosoftのCopilot VisionやAnthropicのClaw AIなどを含む、この新しいAIエージェントの波は、テキスト生成を超えて実際のタスク実行へと進化してます。例えば、MicrosoftのCopilot Visionではユーザーがウェブページと直接やり取りできますし、AppleのApple Intelligenceは画面認識を活用して複数のアプリ間でアクティビティを管理します。
しかし、GoogleのJARVISはさらに一歩進んで、Chrome内でシームレスに動作し、ウェブ環境と相互作用して制御できるんです。JARVISの核心は、フィールドやボタン、ナビゲーションリンクなどの画面上の要素を視覚的に理解してコマンドを解釈する能力です。現在200万トークンまで拡張された堅牢なコンテキストウィンドウと組み合わさって、JARVISはユーザーコマンドを理解するだけでなく、対話やアクションの長い履歴を保持し、容易にマルチタスクを実行できます。この機能により、広範なデータセットと複数のウェブ相互作用にまたがる複雑なシーケンスに対応できるため、単なるAIアシスタント以上の存在となってるんです。
例えば、フライトを予約する場合を考えてみましょう。手動で検索して比較し、フォームに記入する代わりに、あなたの好みをJARVISに伝えるだけで、全てを処理してくれます。このモデルはスクリーンショットを撮り、オプションを分析し、あなたに代わってフォームに記入できます。現在はまだテスト段階で、アクション間に少し時間がかかりますが、最終的には複数のタブやウィンドウを管理する手間を省くことを目指してます。
報告によると、JARVISは早ければ12月にデビューする可能性があり、デジタルタスクの時間のかかるステップを単一のコマンドで置き換えられる新しいウェブ自動化の時代の幕開けを告げることになりそうです。興味深いことに、Project JARVISを取り巻く話題は、テック愛好家たちに従来のチャットボットの終焉の始まりかもしれないと考えさせています。画面を読み取り、クリックし、入力までしてくれる完全にインタラクティブなエージェントが使えるのに、なぜテキストベースのアシスタントで満足する必要があるでしょうか?
GoogleのJARVISは、AIアシスタントが受動的なヘルパーからオンラインライフにおける積極的な参加者へと進化するテック界の大きなトレンドの一部です。私たちは、デジタルアシスタントが複雑な指示を理解し、行動する完全に機能するエージェントへと進化するポストチャットボットの世界を目前にしています。
もちろん、これら全てが有望に聞こえる一方で、リスクがないわけではありません。学習を進めるAIに、個人的なブラウジング習慣や検索設定、さらにはクレジットカードの詳細まで文字通り委ねることになります。プライバシーの懸念は明らかですが、制御の問題もあります。これらのAIエージェントがより高度になった時、私たちは依然として決定を手動でオーバーライドできるのでしょうか?また、セキュリティについてはどうでしょう?ハッカーがAIエージェントを制御下に置いた場合、ユーザーのデジタルライフ全体にアクセスできる可能性があります。
情報筋や他のテックソースは、これらの懸念の一部を強調しており、Googleは恐らく初期のロールアウトを小規模で厳重に管理すると示唆しています。最初は限られたテスターグループのみがJARVISを使用できるかもしれません。これにより、Googleはバグを修正し、セキュリティを強化する時間を確保できます。
明らかに、Googleの計画はフライトの予約や情報検索の支援だけにとどまりません。AI駆動のショッピングにも本格的な後押しをしています。Googleのトランスフォームショッピング機能は、検索をより具体的で関連性の高いものにするように設計されています。例えば、シアトルにいる場合、「メンズ用冬物ジャケット」と入力すると、そこは雨が多いということをGoogleが認識して、防水性のあるジャケットを提案します。
GoogleのAIはあなたのショッピング設定を学習しようとします。検索履歴、興味のある商品、ショートリストに追加した商品を記録し、次回Googleのショッピングフィードを開いた時には、あなたのスタイル、場所、そしてシアトルでの防水性のような具体的なニーズに合わせたパーソナライズされた商品リストが表示されます。このパーソナライズされたショッピング体験は便利そうに聞こえますが、プライバシーに関する懸念も確かに存在します。
Googleはまた、AI試着機能もリリースしており、実際に試着することなく、ジャケットやシャツがどのように見えるかを確認できます。GoogleのdiffusionベースのAIモデルは、仮想版のあなたに服をマッピングし、スマートフォンやコンピューターから直接アイテムを試着できるようにします。現時点では一部のブランドに限定されていますが、オンラインショッピング体験において間違いなく大きな前進です。
AIツールが進化するにつれて、AIが現実とデジタル操作をどのように融合させているかについての懸念が高まっています。Googleはこの問題に対処するため、AI編集された写真に透明性を持たせています。今後、あなたや他の誰かがマジック消しゴムなどのGoogleのAIツールを使用して写真を編集した場合、「GoogleのAIで編集済み」というラベルが付けられます。このラベルは写真自体にウォーターマークとして表示されるわけではありませんが、写真の詳細からアクセス可能なメタデータの一部となります。
Appleも同様に、クリーンアップ機能でAIで修正された写真にラベルを付け、何がリタッチまたは変更されたかを示しています。この透明性は大きな一歩です。というのも、正直なところ、AI編集は非常にリアルで、何が本物で何がそうでないかを判断するのが難しいからです。この新しいラベルにより、写真がAIによって強調されたことが分かるようになります。ただし、それを目立たせすぎることはありません。
すべてのテクノロジーの興奮の裏には、巨大なビジネスの側面も存在します。AI研究開発には数千億ドルが投資されており、Googleのような企業はその投資に対するリターンを必要としています。AI駆動のショッピングやブラウジングアシスタンスは、AI技術を収益化する次の進化を表しています。テック大手企業は、これらのエージェントを日常的なタスクに組み込むことで、AIなしの生活を想像できないような未来を目指しています。そして、これは間違いなくこれらの企業にとって非常に収益性の高い結果となります。
例えば、Microsoftを見てみましょう。彼らは営業やカスタマーサービスを処理できるPower Virtual Agentsなど、独自のエージェントでテストを行っています。これらのエージェントは特定のビジネスニーズに合わせて調整されており、理論的には一人で複数のAIエージェントチーム全体を管理できるところまで進化しており、効率性を新たなレベルに引き上げています。
私たちは、これらのテクノロジーとの関係がより個人的になろうとしているAIの転換点にいます。もはやAIを使って物事を調べたり質問に答えたりするだけでなく、行動する力を与えているのです。これは興奮する一方で、リスクと利点を完全に理解するには時間がかかることは間違いありません。これまでの様子を見る限り、Google、Microsoft、Appleなどは全て、デジタルアシスタントがスマートフォンと同じくらい一般的になる未来に向かって取り組んでいることは明らかです。
その間、12月に近づくにつれて、Project JARVISの潜在的なリリースに注目していきましょう。これは数ヶ月で見られる最大のAIシフトの一つになる可能性があります。
さて、みなさんはどう思われますか?私たちはJARVISにハンドルを任せる準備ができているのでしょうか?それとも、閉じることができないドアを開けようとしているのでしょうか?コメント欄で教えてください。そして、いつもの通り、この解説が気に入っていただけたら、最新のAIとテクノロジーの情報を得るためにいいねと購読をお願いします。ご視聴ありがとうございました。また次回お会いしましょう。

いいなと思ったら応援しよう!