【ざっくりまとめ】Claudeの「コンピューター操作」機能について

2024年10月23日 03:27

Anthropic社がClaudeの新しい機能である『コンピューター操作』について、その開発プロセス、安全性、今後の展望などを詳細に解説した記事を公開しています。
この記事ではその内容をざっくりまとめて簡単に紹介します！

以下の記事を要約したものです
Developing a computer use model
https://www.anthropic.com/research/developing-computer-use

「コンピューター操作」機能の意義

AIモデルがコンピューターソフトウェアを直接操作できるようになることで、現代の多くの仕事に革命を起こす可能性を秘めています。複雑な論理的推論や画像認識といった従来の能力に加え、コンピューター操作はAIアシスタントの応用範囲を飛躍的に拡大します。これまでのAIモデルは、独自のツールを用いて作業を行っていました。しかし、今回、Claudeは、既存のソフトウェアを自由に利用できるようになります。

現代の多くの仕事はコンピューターを介して行われる
AIがコンピューターソフトウェアを人間と同じように操作できることで、新たな応用が可能になる

開発プロセスと技術的課題

Claudeのコンピューター操作は、ツール使用とマルチモーダル能力に関する過去の研究に基づいています。画像認識と画面上の操作を組み合わせ、ソフトウェアツールを操作するために、Claudeは画面のスクリーンショットを解釈し、カーソルを正確な位置に移動するためのピクセル数を計算します。この訓練は、一見簡単な質問への回答（例: 「banana」という単語にはA がいくつありますか？）にも苦労するモデルの課題を解消する助けになります。

画像認識と操作の組み合わせによる訓練
スクリーンショットの解釈とピクセル計算による正確な操作
計算機やテキストエディタなどの簡単なソフトウェアを用いた訓練

驚くべき学習速度と自己修正能力

Claudeは、わずか数種類の簡単なソフトウェア（計算機、テキストエディタなど）での訓練から驚くほど素早く一般化できることを示しました。また、障害に遭遇すると、自ら修正して再試行する能力も示しました。

複数のソフトウェアからの迅速な学習能力
障害発生時の自己修正能力

現状の精度と評価

現在、Claudeのコンピューター操作は、OSWorldという評価基準で、他のAIモデルを上回るパフォーマンスを示しています。ただし、人間レベルの精度にはまだ遠く及ばないものの、着実な進歩を示しています。

OSWorld評価で14.9%の精度を達成（次点のモデルは7.7%）
人間レベルの精度（70-75%）には至っていない

安全性の確保とリスク評価

コンピューター操作は、既存の認知能力を適用する障壁を下げるものであり、新たな危険性を生み出すものではありません。AIセキュリティレベル2を維持するために、安全対策が講じられています。ただし、悪意のある指示（プロンプトインジェクション）や、意図しない行動の危険性への対策も必要です。

AIセキュリティレベル2を維持
プロンプトインジェクションへの対策
オンライン環境での情報漏洩への対策

今後の展開と課題

Claudeのコンピューター操作は、現状では遅く、エラーも発生しやすいです。さらに、人間が日常的に行う操作（ドラッグ、ズームなど）はまだ実行できません。スクリーンショットによる操作のため、瞬時に変化するアクションや通知を見逃す可能性があります。改善と開発が続くと、より高速、信頼性が高く、ユーザーのニーズに応じたツールになると期待されます。

今後の改善点（高速化、信頼性向上、ユーザー操作の多様化）
開発経験のないユーザーにも容易に利用できるようになること
安全性と操作性の両立による継続的な改善

開発者への呼びかけと展望

Claudeのコンピューター操作機能は、AI開発の新しいアプローチです。開発者からのフィードバックは、この技術のさらなる改善に繋がる重要な要素です。

いいなと思ったら応援しよう！

よろしければ活動の応援をお願いします！いただいたチップは今後の記事で解説するツールなどを購入する資金にさせていただきます🙇‍♂️