
コンピュータ操作機能でRPAは衰退するのか?
AIメディアを運営するアラサーの男性2人が、 AIの最新動向やその未来に関する情報を広く掘り下げながら考察をしていくPodcast「AI未来話」。
このnoteでは番組のエピソードからトピックをピックアップして再構成したものをお届けします。※この記事は95%がLLM「Claude」で執筆しています。
今回は「#34 コンピュータ操作機能でRPAは衰退するのか?」を再構成した内容をお届けします。
Anthropicが発表したコンピュータ操作機能の概要
革新的な機能の登場
Anthropicが開発したClaudeに新たに追加されたコンピュータ操作機能は、AIがスクリーンを見てカーソルを動かし、クリックやテキスト入力といった人間が行うような操作を再現する革新的な機能です。
これまでのAIは、専用のAPIやチャットインターフェースを通じて操作を行うことが一般的でしたが、この機能によってAIがコンピュータを直接操作することが可能になりました。
機能の目的と可能性
Anthropicは、AIが一般的なツールやソフトウェアを使えるようにすることを目指しています。
例えば、画像生成AIや画像編集機能を持つAIが登場していますが、この機能を使えば、Adobe PhotoshopやIllustratorといった既存のソフトウェアをAIが直接操作できるようになります。
これにより、新しいAI機能や編集機能を一から開発する必要がなくなり、既存のツールを活用してさまざまなタスクを実行できるようになります。
現状の課題と制限事項
ただし、現時点ではスクロールやズームといった基本的な操作にまだ課題が残されています。
そのため、Anthropicはリスクの低いタスクでの使用を推奨しています。
具体的には、ミスがあっても深刻な影響が出ない作業に限定して使用することを提案しています。
また、この新しい機能はスパムや詐欺に悪用されるリスクも指摘されており、Anthropicは新しい分類システムを導入して安全な使用を推進しています。
主要テクノロジー企業の戦略比較
OpenAIの動向とポジション
OpenAIも同様に汎用的なコンピュータを操作できるエージェントの開発を目指していることが明らかになっています。
具体的には、ユーザーのコンピュータを使用してUberのような配達サービスで食事を注文するなど、実用的なタスクを実行できるAIエージェントの開発を進めています。

しかし興味深いことに、OpenAIはこれまでリードしてきた立場から、この分野では後追いの状況にあります。
例えば、ClaudeのArtifacts機能が登場した後に、OpenAIがwith Canvas機能を発表するなど、Anthropicの動きに追随する形で機能をリリースしている傾向が見られます。
※配信後、OpenAIから「Work with Apps」という、限定的ですがコンピュータ操作のような機能がリリースされました。
Googleのプロジェクト概要
Googleは「Project Jarvis」という名称で、ブラウザ操作を自動化するAIモデルの開発を進めています。
このプロジェクトは、ユーザーがChromeブラウザ上で行う様々なタスクを自動化することを目指しており、商品の購入や飛行機の予約といった日常的なウェブ作業の自動化に焦点を当てています。
Geminiを基盤として画面のキャプチャやインターフェースの解析を通じてタスクを実行する仕組みで、年内に限定的なテストユーザーを対象にプロトタイプの提供を開始する予定です。
各社の戦略的アプローチの違い
各社の戦略には明確な違いが見られます。
GoogleはChromeブラウザに特化し、一般消費者向けの日常的なウェブ作業の自動化を目指している一方、Claudeのコンピュータ操作機能は仕事用途も含めたより広範な活用を想定しています。
Googleの戦略は、Chromeのシェア率の高さを活かしたものですが、ブラウザに限定されているため汎用性ではClaudeに劣ります。

また、Googleの各種サービスはChromeに紐づいており、Google Meetやリモートデスクトップ機能など、ブラウザを介して機能を提供する形態をとっています。
これはネットワーク効果を活用する戦略ですが、ユーザーからは機能の制限や使いづらさを指摘される要因にもなっています。
GUI操作の意義と課題
GUI操作の非効率性に関する議論
人間向けに設計されたグラフィカルユーザーインターフェース(GUI)をAIに操作させることについては、効率性の観点から議論があります。
AIは人間とは異なる方法で情報処理を行うことができ、例えば100ページものウィンドウを一度に処理することも可能です。
しかし、人間向けのGUIは1枚ずつ画面が表示される仕様になっているため、AIにとっては非効率的な操作を強いられることになります。
このため、AIが直接データやプログラムにアクセスできるAPI形式の方が効率的ではないかという意見も出ています。
現実的な導入アプローチ
しかし、AI専用の全く新しいインターフェースを開発するには膨大な時間とコストがかかります。
そのため、効率は劣るものの、既存のGUIを操作させる方が導入の速度とコストの面で現実的なアプローチとなります。
この流れは当面続くと予想され、10年後にはAI専用パソコンのように、モニターがなくAPI連携だけで完全操作されるコンピュータが登場する可能性はありますが、それまでの過渡期においてはGUI操作が主流となるでしょう。
インターフェースの進化の方向性
将来的には、AIと人間が共存しやすいユニバーサルデザイン的な新たなGUIが登場する可能性があります。
これは、ウェブの世界におけるレスポンシブウェブデザインのように、パソコンとスマートフォンの画面が状況に応じて自動的に切り替わるような仕組みに似ています。

AI向けと人間向けのインターフェースが自然に切り替わるような設計が実現するかもしれません。
また、コンピュータの処理の本質であるターミナルのような形式がAI用に最適化され、人間は現在のようなGUIを見るという形での棲み分けも考えられます。
セキュリティリスクと社会的影響
コンピュータ操作機能には重要なセキュリティ上の懸念も存在します。
例えば、ClaudeではSNSへの投稿や政府のウェブサイトとのやり取りができないよう制限が設けられています。
これは、軍事システムなどの重要なインフラへのアクセスリスクを考慮したものです。
また、パスワードの盗取やシステムの脆弱性の悪用、誤操作によるシステムへの損害といったリスクも指摘されています。
実際に、ClaudeがCAPTCHA(人間確認)を突破できたという事例も報告されています。
PSA: MY CLAUDE AGENTS CAN NOW SOLVE CAPTCHAS 🦾🦾🦾
— Pliny the Liberator 🐉 (@elder_plinius) October 23, 2024
BAHAHAHAHAAA IT'S SO OVER 🤣🤣
GG ✌️ pic.twitter.com/rilSfUxwXn
このように、コンピュータ操作機能は人間の社会活動そのものにAIが参加することを意味し、それに伴う新たなリスクへの対応が必要とされています。
RPAとの関係性と今後の展望
RPAの位置づけの変化
RPA(Robotics Process Automation)は、人間が行う処理手順を登録しておくことで、GUIインターフェース上でパソコンが自動的に操作を行うシステムです。

例えば、Excelの特定のセルをクリックする、アイコンを選択するといった一連の操作を登録して自動化することができます。
AIのコンピュータ操作機能の登場により、RPAは衰退するのではないかという意見も出ていますが、実際にはRPAとAIが共存・連携する形での発展が予想されます。
ルールベースと汎用AIの組み合わせ
この状況は、ルールベースのAIと生成AIの関係に似ています。
RPAのような確実性の高いルールベースのシステムと、コンピュータ操作機能のような汎用的なAIを組み合わせることで、より効果的な自動化が実現できます。
例えば、RPAで基本的な処理を行い、想定外の状況が発生した場合にAIが別のエージェントに問い合わせて解決策を見出し、その後再びRPAの処理に戻るといった連携が可能になります。
コンサルティングの重要性
企業がこれらの技術を導入する際には、何を自動化すべきか、どこまで自動化するべきかといった判断が重要になります。
RPAに関する知見を持つ企業やコンサルタントは、このような判断に必要なノウハウを持っています。
例えば、アクセンチュアのようなコンサルティング企業は、AIエージェントの開発と共に、その活用方法についても知見を提供しています。
AIエージェントの回でアクセンチュアの事例は紹介しています。
当初、コンサルティング業界はAIの台頭により衰退すると言われましたが、実際にはAIの導入・活用に関するコンテキストやデータを持つコンサルティング企業の価値が高まっています。
OS統合の可能性
将来的には、OSそのものに生成AI機能が組み込まれる可能性も考えられます。
実際に、Apple IntelligenceやAndroidのGemini、WindowsのCopilotなど、すでにOSレベルでAI機能の統合が進んでいます。
これらの機能は技術的にはすでにPC操作の全般的な制御が可能ですが、セキュリティ上の懸念から制限が設けられている状況です。
特に注目すべきは、OpenAIがMicrosoftやAppleと提携関係にあることで、将来的にはOSにOpenAIの技術が深く組み込まれる可能性も考えられます。
エンディング
このエピソードでは、コンピュータ操作機能の登場とその影響について、特にRPAとの関係性を中心に議論を展開しました。
実は、番組内でも興味深い質問が出ました。「AIにどんなパソコン操作をさせたいか?」という問いに対して、意外にも具体的な用途がすぐには思い浮かばないという状況でした。
これは非常に示唆的で、技術の革新性と実用性の間にある興味深いギャップを示しています。
例えば、メールの返信であればGmailにGeminiが搭載され対応可能になりつつあり、また多くの作業はAPI連携で自動化できる状況です。
📢Google ドキュメントやスプレッドシート、Gmail、Google ドライブの #サイドパネル の #Gemini が、日本語を含む 7 つの言語で Alpha 版にて使用できるようになりました。右上にある Ask Gemini(星の形のボタン)をクリックして、ぜひサイドパネルをお試しください。https://t.co/AYpCmOq1xr
— Google Workspace Japan (@workspacejp) October 17, 2024
実際に必要とされるのは、ウェブサイトへのログインやCSVデータのダウンロード、Excelへのデータ入力といった、APIでは対応できない反復作業の自動化かもしれません。
このように、コンピュータ操作機能は確かに革新的な技術ですが、その活用には適切なユースケースの発見が重要になってきます。
例えば、旅行の条件を伝えて複数の旅行サイトから候補をお気に入りに登録してもらうといった、より具体的で実用的な使い方が見えてきた時に、初めて本当の意味での需要が生まれるのかもしれません。
まとめ
Anthropicが開発したコンピュータ操作機能は、AIがGUIを直接操作できる革新的な技術として注目を集めています。
GoogleやOpenAIも類似の機能開発を進めていますが、アプローチは各社で異なります。
この技術は非効率という指摘もありますが、導入の容易さから当面は主流となる可能性が高く、将来的にはAIと人間が共存できる新たなインターフェースの登場も期待されます。
RPAとの関係では、むしろ両者の連携による相乗効果が見込まれ、コンサルティング企業の知見を活かした導入支援の重要性も高まっています。