
OpenAIがOPERATORで世界を震撼させた – あなたの新しいAIの親友
5,481 文字
すごくワクワクしてるんだけど、今AIの世界を本当に変えつつあるものについて話したいと思う。もしかすると、ウェブを自動でブラウジングしてくれたり、複雑なタスクをこなしてくれたり、デジタルのヘルパーとして働いてくれるAIエージェントの話をよく耳にしているかもしれないね。で、OpenAIの新しいエージェント「Operator」は、まさにこうした流れの中心にある存在で、彼らが「Computer Using Agent(CUA)」と呼ぶモデルによって動いている。語るべきことが山ほどあるから、さっそく話していこう。
この動画はGrowth Schoolの提供でお送りします。
簡単に言うと、Operatorは人間と同じようにインターネットをナビゲートしてくれるAIなんだ。内蔵のブラウザインターフェイスを使って、クリックしたりスクロールしたり文字を入力したりする。そして、僕らが普段やっているような複数ステップのタスクをそのまま実行してくれる。たとえば、飛行機のチケットを予約したり、お気に入りのソーダのお買い得情報を探したり、フォームに入力したり、アプリでやるべきことリストを処理したりもできる。
本当にすごいのは、まさに人間が目にするのと同じGUI(グラフィカルユーザーインターフェイス)を使っていること。開発者向けの特別なインターフェイスがあるわけじゃなくて、画面をピクセルとして認識し、仮想マウスを動かし、仮想キーボードで打ち込むという仕組みになっているんだ。これが可能になっているのは、GPT 4o(視覚機能付きの特別バージョン)と強化学習による上級レベルの推論を組み合わせているからだ。
OpenAIは、このCUAをいくつかのテストにかけている。有名なベンチマークの一つに「OSOR」というものがあって、これはWindowsやUbuntu、macOSといったオペレーティングシステム全体をどれだけ有効に操作できるかを評価する。そこでCUAは38.1%の成功率を叩き出した。これは、人間の72.4%には及ばないけれど、以前のAI手法が22%前後だったことを考えると大きな進歩だ。
さらに「WebArena」と「WebVoyager」というテストもあって、こちらはウェブブラウジングのタスク、たとえばフォームの入力やECサイトのナビゲーションなどが対象だ。ここでCUAは、WebArenaで58.1%、WebVoyagerで87%の成功率を示した。これも従来の最先端モデルを上回る。87%という数字はとても高く見えるけれど、WebVoyagerのタスクは比較的シンプルなものが多いみたいだ。つまり、もっと複雑なタスクで人間の78.2%に近づけるには、まだ課題が残っている。
具体的な事例をいくつか見ると、OpenAIはCUAにGitLab上のソフトウェアライセンスを更新させたり、Magentoでキャンセルされた注文を調べて誰が一番キャンセルしているかを把握したり、メールで送られてきたPDFファイルをひとつにまとめたり、画像を圧縮したり、Cambridge Dictionaryのサイトで文法クイズを仕上げたりといったタスクをやらせている。基本的には、エージェントが引き継いで人間と同じ操作をして作業をこなすことが可能なんだけど、時々行き詰まって何度も試すこともあるし、最終的にユーザーに操作を戻すこともある。とはいえ、全般的にはかなり幅広いタスクを処理できるようになったというわけだ。ただし、まだちょっと不安定なところもある。
OpenAIは、アメリカ国内のChatGPT Pro加入者向けに、このOperatorをリサーチプレビューとして提供し始めている。月額200ドルという高めの料金設定なので、今はビジネスユーザーや上級者向けっぽい位置づけだね。でも、今後はPlusやTeam、Enterpriseといったプランにも展開していく予定だそうだし、そのうちAPIも提供して、外部開発者が同じCUA技術を使って自社製品に組み込めるようにもしたいらしい。そうなれば、ほぼあらゆるデジタル環境で画面を見てクリックして解決するという新しいタイプのアプリが登場するかもしれない。
こうしたOperatorみたいなツールが、これからの仕事スタイルを根本から変えるんだろうなって思う。そして「そんなAI技術を単なるぜいたく品じゃなく、変化の激しい仕事市場で生き残るために必須だ」と感じる人が増えているはず。そこで今回、この動画ではGrowth Schoolとコラボして、未来を切り開くのに役立つ情報をシェアしたいと思っている。
2024年は何だか嵐みたいな状況で、あちこちで新しい仕事が生まれるかと思えばレイオフも頻繁に起きていて、本当に先が読めないよね。今は安定しているように見えても、いつ何が起きるか分からない。だからこそ複数の収入源を持つのが賢いし、もはや必須レベルだろうと思う。そこでAIの出番だ。適切なツールとスキルがあれば、月1万ドルの副収入を得ることも現実的な話になってくる。
「じゃあどうやって始めればいいの?」という人のために、Growth Schoolが面白いプログラムを用意している。3時間のハンズオンAIトレーニングがあって、そこで25種類以上の強力なAIツールの使い方を学べるんだ。普通は有料だけど、今回特別に先着1000名までは無料で参加できるそう。詳細は概要欄のリンクからチェックしてほしい。さらに、サインアップするだけで500ドル相当のボーナスリソースも手に入るんだって。
このトレーニングでは、仕事探しのコツや給与交渉術、Excelの使いこなし、コンテンツ作成など、幅広い内容をカバーしている。しかも、これらはテック系の人だけに限らない。金融や営業、マーケティング、人事、あるいはまだ学生の人でも応用できるスキルなんだ。すでにGrowth Schoolは何百万人もの人たちのスキルアップをサポートしてきたから、今度はあなたがAIの時代に備える番かもしれない。興味があれば、無料枠があるうちにリンクから参加してみるといいよ。それと、Growth SchoolのWhatsAppコミュニティに入ってみるのもおすすめ。AIに興味ある人たちとつながれる場になっているからね。
それでは、どうやってAIスキルを身につけて未来に備えるかも分かったところで、再びOpenAIのOperatorが持つ興味深い機能と課題に話題を戻そう。
こういったウェブブラウザ型のAIエージェントは、便利さへの期待がすごく高まる一方で、悪用される可能性を心配する声もある。Operatorはすごく多くのことができるから、もし悪意のあるユーザーが法を犯すような使い方や倫理的に問題のある使い方をさせようとしたら、大きな問題になるよね。だからOpenAIとしては、セーフティ対策をいろいろ重ねていると言っている。
まず、AI自体が有害なことや違法なことをさせようとする指示を拒否するように訓練されている。それに加えて、アダルト系やギャンブル関連など、アクセスしてはいけないサイトのリアルタイムのブロックリストを運用しているらしい。さらに、怪しい操作やポリシー違反の兆候があるときには自動化されたモデレーションチェックが走る。違反行為やハッキング行為を繰り返そうとすると警告や利用停止に繋がるというわけ。
オフラインの検知パイプラインもあって、子どもの安全に関わる問題や詐欺的な行為を見つけ出す仕組みがあるんだとか。別の懸念としては、AIがミスをしてユーザーに損害を与えないかということ。たとえば、誤った配送先を入力してしまうとか、大事なファイルを消してしまうとか。Operatorでは、メールを送るときや購入するときなど、大きなアクションを実行する前にユーザーの確認を求めるようになっているらしい。さらに「Watchモード」という機能があって、特に重要なサイトではユーザーがAIの操作を直接見守る形にできる。
それから、プロンプトインジェクションにも注意が払われている。たとえば、サイト側がAIを騙して個人情報を抜き出させようとしたり、勝手に変更を加えさせようとするようなケースだね。OpenAIいわく、内部テストでは初期の段階で一度だけ引っかかったけど、今はちゃんと警戒するように設計されているらしい。ただ、この手の攻防はいたちごっこだから、完全に安心というわけではないんだけどね。さらに別のモニタリングシステムもあって、画面上で怪しいコマンドが確認されたら実行を凍結する仕組みもあるらしい。
実際に普段使いするときのイメージとしては、いろんなデジタル作業をまとめてこなせるようになるのが最終目標みたい。たとえば、デリバリー注文やディナーの予約、不動産検索なんかも代理でやってくれる。実際、競合他社からも似たような例が出てきていて、Perplexity AIはAndroid版のエージェントをリリースしたし、あれはリマインダーを設定したり、タクシーを呼んだり、レストランを予約したりしてくれるみたい。Anthropicという企業のClaudeというモデルも、すでにエージェント的な機能を一部提供していて、さらに文書の出典をきちんと示す「citations」機能を追加したりしている。一方、AppleもSiriと統合された高度なApple Intelligence Systemを立ち上げて、ユーザーの許可を得ながらOpenAIと組んでiPhoneにChatGPTの機能をもたらしているらしい。
パフォーマンス的には、こういうエージェント型のシステムは以前はSFに近いか、ほとんど実現が難しいと言われていた。でも、チェーン・オブ・ソート(Chain of Thought)によるステップごとの推論を行う大型言語モデル、たとえばOpenAIのGPT 4oみたいなものが登場してから、一気に可能性が開けた。ある企業の幹部がロイターに話したところによると、「こうした大規模言語モデルがタスクを一つ一つ順序立ててこなせるようになったことが一番の転機」だと言う。複数のウェブページを行き来してフォームに入力するみたいなリアルタイムの作業でも、順序立てができると実用性がグッと上がるわけだ。
実際にOperatorを始めるには、アメリカ在住でChatGPT Proに入っている人なら、operator.chatgp.com(※原文のとおり)にアクセスして「Operator、来週水曜の朝にロサンゼルスからシアトル行きのフライトを200ドル以内で探して予約して」みたいに言うだけ、という感じみたい。あるいは「Redfinでシアトルにある3ベッドルーム2バスルームのタウンハウスを600,000ドルから800,000ドルの範囲で検索して、ソーラーパネル付きの物件を見つけて」と頼むこともできる。もちろん、まだ完璧じゃないし、サイトの仕様が独特だったりしたらうまくいかないこともあるから、10回中3回くらいしか成功しないこともあるらしい。でも、最終的には人間がほとんど手を出さずに、AIに全部ナビゲートさせるというのが理想なんだろうね。
テキスト編集を高度にやってくれたり、特殊なサイトを操作してくれたりはどうかというと、まだ不十分な面が多い。OpenAIのチームによると、レイアウトが複雑だったり、「HTML5エディタでプレゼンを作る」みたいな特殊な操作を要求すると、試行錯誤のループに陥る可能性がある。実例として、HTML5エディタで文字色を変えたいとか、右寄せしたいとかいう場合も、一応操作できるけど迷走することがあるらしい。指示をもっと具体的にすると成功率が上がるとも言っていた。要するに、「左側にあるフィルターセクションをクリックして、日付を2025年2月22日の午前9時から深夜までに設定して」というように手順を細かく書いてやる感じだね。
コストの問題もある。月額200ドルは高いし、コミュニティの一部では「高すぎる」って声が上がっている。でも、おそらくこれは今はビジネスやエンタープライズ向けの段階だということだろうね。技術が安定してきたら、もっと安いプランや特別料金のモデル、あるいはAPIの利用に応じた従量制の料金などが導入されるんじゃないかと予測している人もいる。GPT 4oのときも最初は制限付きで高額だったけど、あとからだんだん開放されたからね。
「フィッシング攻撃」や怪しいサイトでAIに破壊的な行動をさせるような攻撃はどうなのかというと、OpenAIは「疑わしいアクセスのパターンを監視する仕組みがあって、数時間以内にブロックできる」と言っている。AI自体も「これは変だ」と判断できる場合は無視したりする。それでも完全に防げるわけではないけど、開発コミュニティは常に脆弱性をチェックしているから、どこまで安全を保てるかが今後の課題だろうね。
そんなわけで、OperatorのようなAIエージェントについてあなたはどう思う? 使ってみたいと思う? それとも、いくら確認が挟まるとはいえ、AIに作業のハンドルを任せるのはちょっと不安? 個人的には、これからどう進化して、普段のちょっとしたネット上の用事をどんなふうに変えてくれるのか楽しみでしょうがない。それじゃあ見てくれてありがとう。次の動画でまた会おうね。