Claude 3.5のコンピュータ使用

2024年10月23日 08:20

Claude 3.5にコンピュータ使用が追加されました。

コンピュータ使用

Anthoropic が生成AI Claude 3.5にコンピュータ使用を追加しました（[anthropic])。
コンピュータ使用 (Computer Use) とは、コンピュータの画面を見て、カーソルを動かしたり文字を入力したりする機能です ([itmedia])。
まだβ版なので、遅いし、入力をミスすることもある、とAnthropicは述べています。
スクリーンショットのみを使う操作のベンチマーク「OSWORLD」で従来の2倍近い14.7%を示しているそうです。
これは他社も追随しそうです。

生成AIによる問題解決

SWE-benchによる自律ソフトウェア開発エージェントの研究で明らかになったように生成AIによる問題解決の精度向上には次の3つが必要です：

基盤モデルの性能向上
適切な問題解決フレームワークの適用
適切な作業環境の提供

この3つがあいまって生成AIは的確な問題解決ができます。問題解決フレームワークはさまざまな手法やプロンプトエンジニアリングの組み合わせですが、最近は足場 (Scaffolding) とも言われているようです。
今回のコンピュータユースはこの3番目：適切な作業環境の提供に関して、人間が使うインタフェースをそのまま使えるようにするものです。

非効率の極み

人間用のアプリケーションのスクリーンインタフェースは人間のために作られているので、これを生成AIに使わせるのは非効率の極みだと思います。
生成AI専用にインタフェースと仕様書を作って、その仕様書を生成AIに読ませればいいと思います。
これが実現しないのは、ひとえに、生成AI用のインタフェースを作っても買う人がいないということによります。
人間型（ヒューマノイド）のロボットを作るのと同じです。ロボットを人間型にするよりロボット用の家を作ってその中をロボットの形で動けばいいと思います。残念ながらありとあらゆるものは人間向けに作られているので、それを一から作り直すのは大変です。時間もコストもかかります。このためヒューマノイドの研究開発が推進されています。
建物を作り直すのに比べれば、生成AI向けのAPIを作るのは比較的容易だと思います。GoogleやMicrosoftは着手しているとは思います。

むすび

生成AIの向上には3つの課題があります。進化しないうちはモデルの精度以外は問題にならなかったのですが、モデルの進化とともに他の2つの課題が明らかになっています。
今回、人間の使うアプリケーションのスクリーンインタフェースをそのまま使うというをAnthoropicが出してきました。画像認識技術とかはすでにあるので他社も追随してくると思います。
生成AI環境の未来は3つです：

人間のインタフェースを生成AIが使いこなす
生成AI専用のAPIが作れれる
上2つのハイブリッド

これはマイグレーション問題なので、機械と社会がどう融和するかの課題として展開が楽しみです。

参考文献

[anthoropic] Developing a computer use modelhttps://www.anthropic.com/news/developing-computer-use 2024年
[itmedia] Anthropic、「Claude 3.5 Sonnet」にPCを操作する「Computer Use」（β）追加　https://www.itmedia.co.jp/news/articles/2410/23/news101.html