Apple Intelligenceの先にある、人と機械の新世界

2024年6月30日 10:36

スティーブ・ジョブズだったらだいぶ違ったはずだ。「Knowledge Navigator」なんて過去の亡霊、しかも宿敵スカリーのアイデアを軽やかに乗り越えて、寝ぼけ眼をひん剥くようなビジョンを見せてくれたんじゃないか。

そう、Apple Intelligenceのことである。既に旧聞に属していそうだが、色々あってようやく出た原稿をきっかけに、四方山話を気の向くままに残してみたい。

個人的には、時代を画する発表だったと感じている。それこそiPhoneの時のように。あの時もAppleはだいぶ叩かれた。今回はそれ以上の酷評もあったし、確かに危なっかしい気もする。それでも後から振り返って、これが始まりだったと言えるのではないか。

でも何の？

この原稿で書きたいのは、そのあたりである。詰まるところ自分の空想に過ぎないし、Appleが本当に何を考えているのかはわからない。とはいえ、いつにも増して大袈裟な拙文のタイトルに、眉間に皺を寄せた、いかめしい文体も、故ないことではないのである。何せ、30余年に及ぶ自分の記者人生を超えるスパンの語なんだから。

ようやく来たエージェント

Appleが6月上旬に開いたWWDCでは生成AIへの同社の対応が焦点になるだろうと、ずいぶん前から囁かれていた。それを肴に、ちょっとした記事を書いてほしいと頼まれた。

イベントが始まる前から、自分の中で記事の方針は大体決まっていた。きっかけは東大・暦本教授のブログである。

半月ほど前、HCI（Human Computer Interaction）の研究で最大の国際会議CHI 2024に参加した感想を綴った文章だ。読むと、AI関連の研究が激増したばかりか、「CHIの大きな物語が終了して次の時代が開いた」とまで書いてある。「すなわちダイレクトマニピュレーション(直接操作）時代」から「AIと何らかの『会話』をしながら目的を達成するという方向」への変化だと。

だったらAppleもそっちに行くはずだと踏んだ。すなわちAIをユーザー・インタフェースとして全面的に採用する方向に。

一口で言えば、自分でやらなくても、指示を受けたAIが代わりにコンピュータを操作してくれるようになる。今やAIパソコンが手に入るご時世だが、そこでのAIはあくまでアプリを手助けする脇役にすぎない。その代わりにAIがユーザーの代わりに色々なアプリを操り、面倒なあれこれの仕事を片付けてくれるのだ。

つまりはエージェント。だからあれだ、Knowledge Navigator。それこそ暦本さんも書いているように。

結果は思った以上だった。基調講演でちょっと出た次世代Siriの話なんてまさにそのまんま。「ステーシーがニューヨークでピンクのコートを着てる写真出して」「写真をもっとポップにして、彼女のバイオのメモに貼って」なんて頼んでみたりして。

ひょっとすると発表会で目立ったのは、議論を要約してくれたりとか、メールの返信をさっと作ったりとか、小綺麗な画像があっという間に出来上がったりとかいった機能の方だったかもしれない。でも、そんなのはもう他の会社もやってる。

そうじゃなくて、UIがAIになるのがすごいのである。極端に言えば、自分のやりたいことを一言口にするだけで、AIがスマホやパソコンやタブレットを操って自動的に済ませてくれるのである。あたかも長年連れ添った糟糠の妻のように。と例えたら、さすがに顰蹙を買うだろうけど。

ジョブズをAppleから追い出したジョン・スカリーが先のビデオを作ったのが1987年。やっと、ようやく、夢想に現実が追いついた。ちなみに余談だが、スカリーのインタビューからビデオの監督はジョージ・ルーカスかと期待してたら、こっちの記事によればどうも誤解らしい。

LLMを相棒にするには

もちろん今のSiriだってそれなりである。何度呼びかけてもわかってくれないのに、何も言っていない時には「よく聞き取れませんでした」なんて話し出すのはご愛嬌だとしても。まあでも、無二の相棒からは程遠い。

LLMをエージェントにするって発想もありきたりだ。第一、ChatGPTが出たころから、LLMを核にしたエージェントを構築する研究や、作成のための様々なツールが登場してる。ここやここに、リストがある。

そもそも、ChatGPTとかClaudeとかGEMINIとかいった対話サービス自体がエージェントと言っていい。コードは書けるし、絵だって描ける。プロンプトを工夫すれば、スケジュールを立ててくれたり、プレゼン資料を作ってくれたり、それこそWebサイトのUIをデザインしてくれたりもする。

でも、それだけじゃ全然足りないんですよ。

なぜなら、LLMだけではできることが限られるから。やっぱり色んなソフトとの連携が必要だし、ユーザー側のデータのセキュリティやプライバシーの確保も当然ながら大事になる。そもそも、エージェント作成用の各種のツールが出てきたのは、LLMに欠けたこれらの要素を補うためである。データの検索とか、保存とか、各種のサービスやアプリとの連携とか。

まるで優等生の回答

Appleが今回の発表で突いてきたのもそこである。しかもターゲットがものすごく明確だ。今も変わらぬ同社の決め台詞、「rest of us」なのである。オープンソースのツールを使ってバリバリ開発できるギークでも、業務用にLLMをカスタマイズしたい企業でもない、自分みたいな普通の人。restなんて言いながら、人類のマジョリティが、おそらくそこに当てはまる。

実際、AppleがWWDCで発表した内容は、LLMを使った個人向けのエージェント（Personal LLM Agent）に必要な条件を、面白いほど満たしていた。

筆者が事前に参考文献として手に取ったのは、中国・清華大学の研究者らがまとめたサーベイ論文。LLMをベースに個人向けのエージェントを構築する研究を総浚いし、関連製品の開発に携わる実務者・研究者25名の意見もまとめた文献である。

この論文が指摘する要件を、Appleはことごとく押さえてきた。例えばセキュリティやプライバシーを保ちながら、ユーザーの手元の端末とクラウドを必要に応じて連携させてLLMを実行する構成。サーバー上の処理でもユーザーの秘密を漏らさない「Private Cloud Compute」。ユーザーが置かれたコンテクストを把握する「Semantic Index」。アプリの機能をSiriや他のアプリからも利用できるようにする「App Intents」、などなど。もう、教科書通りの答えをすらすら口にする優等生かって思うくらい。

頼むだけで済むありがたさ

その先に見えてくるのが、今とは全く違うコンピュータの使い勝手である。希望を込めて言えば、面倒くさい手間を全部AIがやってくれる未来。

例えば自分が記事を書くときに、おそらく一番時間がかかるのは資料探しである。「あの話が書いてあったのはどの文献？」「あの発言、ノートのどこにあったっけ？」「こないだ見た記事のサイトは……」なんて探し回っているうちに、画面はウインドウでいっぱいになって、余計に見つけにくくなるのが日常茶飯事だ。それが、「あれ出して、あれ」で済んだら、どんなに楽なことか。

あるいは「3次元のグラフを作るのに、いつも使ってるMacのNumbersじゃできないからExcelを立ち上げてみたものの、どうやってやるんだっけ」なんて悩むこともなくなる。「これ、3次元のグラフにしといて」で終わりである。

ちょっと凝った図を描きたいときに、微妙に色や配置が違う幾つものバージョンを作っては保存し、後からまた呼び出して、切ったり貼ったり消したりする必要もない。「これまでの案を全部並べてみてよ。うん、右から二つ目かな。あ、ここはちょっと大きく。これは、こっちの案に差し替えて。そうそう…‥」なんて偉そうに指図してみちゃったり。

ああ、こういう妄想であればいくらでも膨らませられる。

多分今でも、もっといいやり方があるんだろう。でも、そんなことに頭を悩ませ、無駄に時間を使わなくても済む時代が来るんであれば問題ない。全部AIに頼んじゃえばいいのである。

手元の知能は最強じゃなくていい

未来のエージェントが「頼めば済むインタフェース」なのだとしたら、コンピュータ同士、アプリ同士の関係もがらりと変わる。エージェントができないことは、別のエージェントにお願いすればいいからだ。

実は、Appleの発表自体が既にこの側面を含んでいる。そう、「ChatGPT」の統合である。WWDCのデモでは、ユーザーが「フレッシュなサーモンとレモン、トマトがあるんだけど、いいメニュー考えるの手伝って」って聞いたときに、Siriでは答えられなかったら「ChatGPT使っていい？」って返ってくる。臆面もなく。

でも、それでいいのである。ユーザーは正しい答えが得られれば、どこがソースであっても構わない。

Apple側にも大きなメリットが存在する。必要以上に多くの知識を詰め込まないので、AIの規模が小さく、実行が容易になるのだ。iPhoneのような、クラウドと比べて非力で、電力の供給に不安があるハードウエアには、ものすごい朗報である。

そもそも次世代のSiriは、自分でできないことを、他のアプリの力を借りてこなすのが前提である。写真の編集では写真アプリ、メモの作成ではメモのアプリ。だったら、外部のAIに知恵を借りてもちっとも不思議じゃない。

AIは専門分化する？

AIが何でも知っていなければならないと思いがちなのは、現在のLLMがデータやモデルや計算パワーの規模を追求することで成長してきたからである。広く知られたスケーリング則に従って。

最高峰のAIでも、能力がまだまだ人には追いついていない以上、規模をとことん拡大して性能を引き上げる競争はもちろん続く。ただし、手元のiPhoneアプリや各種のWebサービスを取り扱うだけなら、そこまでの知能は必要ないだろう。とりわけ、素敵な献立づくりやウッドデッキの飾り付け（WWDCで挙げたもう一つの例）に役立つ蘊蓄までは。

Webを検索する代わりにAIを使う良さは、自分で調べるめんどくささをすっ飛ばして、欲しい情報を程よい口あたりで差し出してくれることである。ならば万能選手のGPT-4oやClaude 3.5 Sonnetの出番さえ必然とは言えない。調理やエクステリアの専門AIに聞けばいい。あればだけど。

ひょっとしたら、今後は細分化した分野それぞれに専門知識を備えたAIが登場するんじゃないか。自然科学から人文科学に至る、あらゆる学術領域はもちろん、政治や生活、産業や文化にだって、お抱えのAIがあっていい。

企業や自治体が秘蔵したデータを注ぎ込んで開発したいAIはまさにそれだろう。生成AIの宿痾である「幻覚」を退治するにも、そっちの方が断然向く。あらゆる知識を飲み込むモンスターを相手にするより、「分割して統治」した方がはるかに近道に違いない。

だとすれば、手元にいつもいて欲しいのは、何でも知ってる天才や雑学王なんかじゃあり得ない。阿吽の呼吸で反応する、自分の分身こそがふさわしい。

もしAppleが本当にそれを育てられるなら、OpenAIなんて目じゃなくなる。汎用のAIがいくらでも後追いできるのに対して、肌が合う専用品は唯一無二だからだ。技術の上でも、倫理の面でも、相当難しい課題だが。

来るべき人と機械の共棲社会

一人一人にエージェントが仕えるようになった先には、エージェント同士が話し合い、力を合わせ、時には反発したり妥協したりする社会が現れる。はずである。

過去の研究を振り返ると、そもそもエージェントは複数で互いに助け合う存在として構想されてきた。ユーザーごとにエージェントがいるのはもちろん、一人のユーザーがいくつものエージェントを使ってもいい。

古典的な例を挙げれば、ユーザーのエージェントが店舗のエージェントと交渉して買い物したり、複数のサイトを巡回して旅行のプランを作成したりといった具合だ。多くの開発者がこの方向を目指すであろうことは、現在の研究動向などから容易に想像できる。

しかも、エージェントは多様な「体」を持つようになる。きっと。

クラウドの助けを借りつつiPhoneでも実行できるなら、他の様々な機器にもLLMベースのエージェント機能が組み込まれるのは時間の問題だ。家電や自動車から、家庭や職場で人を助けるロボット、さらには建築物や街中にまでエージェントは遍在しうる。事実、自動運転車やロボットにLLMを組み込む研究が各所で進んでいる。

それらは人の言葉を解釈して、様々なタスクを実行するようになるだろう。今のLLMの能力から推し量ると、十分実現可能な範囲に見える。人の指示を受けて、その人が満足するように作業を遂行する能力であれば。本物の理解かどうかは関係なく。

恐らくエージェント同士も、人にわかる言葉でやりとりするようになると思う。それだけの能力があるのはもちろん、対話用のプロトコルやインタフェースを設計・標準化する必要がなくなり、問題が生じた時の分析や、ひょっとしたら裁判すら、しやすくなるからだ。ユーザーの質問に詰まったSiriが、文言をそのままChatGPTに渡すのは、その先駆けだろう。

つまりApple Intelligenceの先には、人とエージェントが入り混じり、言葉を通じて交流する新世界が到来する。それが天国か地獄かは、まだ誰にもわからない。

40年かかっても

ずいぶん風呂敷を広げてしまった。妄想まみれのこの原稿で、唯一正しいのは、こんな社会が一朝一夕には来ないことだろう。

冒頭で引いたWWDCの記事では、Appleが初代のMacintoshを発売してから今年が40年目に当たることを挙げておいた。Macが世に問うたグラフィカル・ユーザー・インタフェース（GUI）が、それだけの時間をかけてじっくり成熟してきたのだから、エージェントでも同じくらいの余裕を持って臨むべきだと匂わせた。

Appleの一歩が頓挫することだってあり得る。最近の同社の製品を見ていると一抹の不安が残る。最新のApple Watchで大々的にフィーチャーした「ダブルタップ」が思った通りに動かないとか。タイマーを止めるのに使えるはずが、何度やっても失敗する。そう思って今試すと、普通に止まるから腹が立つ。

他にも書き出したらキリがないが、昔からApple はそうだったと言われたら、そんな気もする。少なくともUIの変革に対して、同社以上に期待が持てる企業があるかと言えば、自分の頭には浮かんでこない。

なんだか締まりのない最後である。本当は「30余年に及ぶ記者人生」と書いた通り、ここから時代が一気に戻って昔話が始まるはずが、すっかり息切れしてしまった。続きは次回「人とコンピュータの『ぐるり現象』」で、と書き残して幕引き。