見出し画像

Anthropicのクロードによるコンピュータ操作が革新的な変化をもたらす | YC解説

3,480 文字

AI(人工知能)の石は話すことができますが、読むことも、見ることもできます。そして今や、コンピューターも使えるようになりました。ウェブを閲覧し、ボタンをクリックし、自分でテキストを入力する。AIエージェントの時代が到来したのです。最初の登場者の一人が、Anthropicの新しいAIエージェント、クロードのコンピューター使用機能です。その仕組み、できること、そしてAIを永遠に変える可能性について詳しく見ていきましょう。
10月、AnthropicはClaude 3.5 Haikuとそして新しい3.5 Sonnetという一連のアップグレードモデルをリリースし、大きな波紋を呼びました。彼らはまた、特別なものとしてコンピューター使用機能もリリースしましたが、この分野で彼らだけではありません。サム・アルトマンが映画「her」のサマンサを再現しようとしていることはすでに知られていますし、OpenAIも来年には独自のエージェントオペレーターをリリースすると言われています。Googleも同様のものに取り組んでいます。AIエージェントの領域は急速に拡大しており、今のところAnthropicは大手AIラボの中で最初にこの分野に参入しました。現在、クロードのコンピューター使用機能は開発者がテストを行っているパブリックベータ版の段階ですが、すでに完全なゲームチェンジャーとなる様相を見せています。
では、どのように機能するのでしょうか。クロードはしばらく前から画像を理解する能力を持っていましたので、次のステップは画面に表示されているものに基づいて、ボタンのクリックやテキストの入力といった特定のアクションをいつどのように実行するかを学習させることでした。クロードは3月のClaude 3以来、長い間、画像を分析してテキストで応答する能力を持っていました。新しく追加されたのは、それらの画像がコンピューターのスクリーンショットである場合に、クリックできる画面上の位置やアクションを実行するために押すことのできるキーボードのボタンを、モデルに応答として提供するよう訓練したことだけです。実際にそれほど多くの追加訓練を必要とせずに、モデルはその作業を非常に上手くこなせるようになりました。これは一般化の良い例です。
このために、Anthropicはクロードにピクセル単位で画面上の正確な位置を認識するよう訓練する必要がありました。その後、Anthropicはクロードに画面上で何が起きているかを理解し、タスクを実行するためにどのようにソフトウェアツールを使用すべきかを推論できるように訓練することができました。例えば、退屈で反復的なタスクの自動化を手伝うことができます。クロードは私の画面のスクリーンショットを撮り始め、アント設備会社が実際にはスプレッドシートに存在しないことをすぐに認識します。幸いにも検索で一致するものが見つかり、クロードはこのフォームに必要な情報をすべて入力するためにページをスクロールし始めます。
コンピューター使用機能を使い始めるには、開発者は仮想マシンやDockerのようなコンテナで実行する必要があります。また、AnthropicのAPIキーも必要です。すべての設定が完了すると、左側にユーザープロンプト、右側にクロードのアクティビティを表示する専用のブラウザウィンドウを開くことができます。クロードはプロンプトを分析し、どのツールを使用するかを決定することから始めます。作業を進めながら、各ステップでスクリーンショットを撮影し、進捗状況を確認します。調整が必要な場合、クロードはタスクを完了するまで、異なるアクションやツールを試すためにループバックします。この決定、評価、行動の繰り返し可能なループは「エージェントループ」と呼ばれ、クロードが複雑な段階的タスクを自身で処理する方法です。
コンピューター使用機能は他にどのようなことを可能にするのでしょうか。Anthropicの独自のデモでは、ゴールデンゲートブリッジでの日の出ハイキングを計画するのをクロードが手伝うというものなど、いくつかの異なるタスクが紹介されています。ウェブを検索し、重要な詳細を把握し、そしてGoogleカレンダーにイベントを作成します。別の例では、ウォートン校のイーサン・モリック教授がクロードのコンピューター使用機能をテストし、建設現場の映像を入力して、安全性の問題を監視するようにクロードに指示しています。クロードがスクリーンショットを次々と撮影し、現場のさまざまな部分を分析し、すべての装備や資材に注目し、潜在的な問題を発見しようとしているのがわかります。最後には、すべてを整理して見やすいスプレッドシートにまとめ上げ、自動化されたOSHA(労働安全衛生管理局)コンプライアンスチェックを完了させます。
この時点で、コンピューター使用機能がAIにとって一歩前進であることは明らかでしょう。これまで開発者は、モデルに合わせてツールを作る必要があり、AIが様々なタスクを実行するために特別に設計されたツールを使用する専用の環境を考案してきました。今や、モデルをツールに合わせることができます。これは強力な変化です。コンピューター使用機能は多くのアプリケーションの可能性を開きます。企業は反復的なタスクを自動化して効率を向上させることができ、一般ユーザーは航空券の予約や食事の注文といった日常的な作業で時間を節約できます。AIエージェントが私たちの退屈な作業のほとんどを処理する未来は容易に想像できます。
開発者にとって、コンピューター使用機能は参入障壁を大幅に下げます。LLM(大規模言語モデル)はすでにコーディングのようなタスクを一般の人々にとってよりアクセスしやすいものにしており、コンピューター使用機能はそれをさらに一歩進めます。
コンピューター使用機能はまだ開発途上であり、いくつかのバグや制限があります。通常のモデルよりもはるかに遅く、時々クラッシュする傾向があるため、信頼性は初期段階での懸念事項です。時にクロードはツールの選択を誤り、混乱したり、タスクから逸れたりすることもあります。AnthropicがYouTubeで共有したあるセッションでは、クロードが説明のつかない理由で、タスクの途中で突然イエローストーン国立公園の写真を検索し始めました。公平に言えば、人間も気が散って同じようなことをすることがありますが。
クロードには保護機能があります。簡単に悪用される可能性があるため、アカウントの作成やソーシャルメディアのコンテンツ生成などは避けます。また、プロンプトインジェクションにも脆弱です。これはモデルが元のプロンプトに従うのではなく、訪問するオンラインソースに埋め込まれた異なる情報やプロンプトに従うよう騙される可能性があるセキュリティリスクです。ウェブサイトがクロードにパスワードマネージャーの内容をアップロードするようプロンプトインジェクションを行うことを想像してみてください。それは危険です。
Anthropicはこれについて考慮し、アクションを安全な仮想マシンに限定し、機密データへのアクセスを制限し、承認されたサイトを厳密に管理することで、ユーザーの安全を確保しようとしています。しかし、このベータ版は始まりに過ぎないため、これらの制限の多くはすぐに解除される可能性があります。Anthropicはすでに、コンピューター使用機能がより高速で信頼性が高く、ユーザーが完了したいタスクにとってより有用なものへと急速に改善されると述べています。
多くのスタートアップもこの分野に参入しています。最近、YC企業のKuraは独自のブラウザエージェントをリリースし、Voyagerベンチマークでクロードのコンピューター使用機能を上回る性能を示し、新しい最高水準を達成したようです。
近い将来、コンピューターを完全に使用し制御できるLLMは、開発者がソフトウェアを書く方法、CEOが企業を運営する方法、そして私たち全員が日常生活を送る方法まで、すべてを再形成するでしょう。革新的な新しいアプリケーションの一つ一つが、私たちの働き方、つながり方、生活の仕方を変えていきます。このようなAIは単なるアシスタントではなく、かつては全チームや企業を必要としたタスク全体を引き受けることになるでしょう。
さて、あなたはコンピューター使用機能で何を構築しますか?

いいなと思ったら応援しよう!