見出し画像

AIの進歩にとって画期的な一週間だった!

11,025 文字

今週はAIの世界において非常に重要な出来事がたくさんありました。まさに世界を変え得るような発表もあって、すでに別の動画でも取り上げましたが、とにかく時間を無駄にしたくありません。さっそく内容に飛び込んでいきましょう。まずは今週、みんなの話題をさらっているOpenAIのニュース、いわゆる「オペレーター・プラットフォーム」についてです。

これは過去にClaudeで使われていた「コンピュータの操作機能」によく似ています。具体的には、たとえば「Allrecipesからアサリのリングイネのレシピを見つけて、その材料をすべてInstacartの買い物リストCに追加してほしい」といったプロンプトを入力すると、クラウド上に自前のブラウザを開いて(実際にユーザーのブラウザを使うわけではありません)、該当するレシピを探し、高評価のレシピを見つけ出して必要な材料をチェックし、それをInstacartのカートに全部入れて、あとは「続行してチェックアウト」をクリックする段階まで準備してくれるわけです。これは公式で示された例のひとつに過ぎませんが、かなり面白いですよね。

さて、この新しいオペレーターの何が興味深いかというと、「コンピュータを使うエージェント(Computer Using Agent、CUA)」と呼ばれる新モデルが採用されていることです。GPT-4oのビジョン機能と強化学習による高度な推論を組み合わせているのですが、このCUAはグラフィカルユーザーインターフェース、たとえば今回のケースではブラウザに実際に入り込んで、スクリーンショットを見ながらマウスやキーボードのアクションを擬似的に使うようなやり取りをするよう設計されています。Anthropicのツール利用機能と非常に似ていますが、設定の手間があまりかからずに済む点でさらに洗練されているように思えます。

実際に少し触ってみましたが、面白いものだとは思いつつ、Boongさんが「AIエージェントのおかげで、もともと1分もかからなかった作業を30分で終えられるようになった」とツイートしていたように(もちろん皮肉ですが)、現状のツール操作系のAIが提供してくれる体験は、それぐらいの感想を抱く人も少なくないかなという印象です。

今のところ、このオペレーターはProプランでのみ利用可能で、月200ドルのハイエンドのプランに入っているユーザー向けに提供されています。通常のChatGPT Plusや無償版ではまだ使えませんが、いずれPlusユーザーやEnterpriseユーザーにも開放するとアナウンスされています。フリー版への対応は不明とのこと。具体的にどんなことができるかという例を見てみると、

・「明日の夜8時に、ロマンチックなフレンチビストロに2名分の予約を入れて」と入力すれば、OpenTableを利用して予約を完了させる。
・「StubHubでマイアミグランプリのもっとも安いチケットを探してきて」と指示すれば、値段の安いチケットを提示してくれる。
・「Allrecipesを使って鶏肉を使った30分でできる料理を探して。評価4.5以上のレシピ希望」といった要望にも対応。

ほかにもDoorDash、Instacart、Uber Eats、Thumbtack、Uber、Target、Etsy、eBay、booking.com、Tripadvisor、Hipcamp、Priceline、Reuters、AP通信、The Atlantic、Axiosなどなど、さまざまなツールとのネイティブ連携が可能になっています。

実際にThumbtackとの連携例として「明日、新しい家具を組み立ててくれる人を探してほしい」と入力すると、オペレーターの画面が開いてThumbtackのページに自動でアクセスします。表示される黒いマウスカーソルはAIが勝手にブラウザを操作しているのです。家具組み立てを検索し、自分のZIPコードが勝手に入力されてしまった時には手動で修正も可能。ユーザー側が手動で入力を直してからコントロールをオペレーターに戻すと、またAIが続きを行ってくれます。
何個組み立てるか、取扱説明書はあるか、緊急度はどうかなど、必要事項を順に自動でチェックしてくれます。最終的に見つかったのは評価4.9、時給40ドルの「イゴールさん」。オペレーターが「この専門家で続けますか? もっと探しますか?」と確認してくるので、「これでいいよ」と返事をすればオッケーです。

Boongさんの言葉を借りれば、こういったタスクは自分でThumbtackを開いて ZIPコードを入力して探すほうがずっと早い、という指摘も確かに一理あります。ただ、オペレーターの強みはタブを複数並行で開いて処理を同時進行できるところかもしれません。たとえば、旅行に行くときに「飛行機を探すオペレーター」「ホテルを探すオペレーター」「食事を予約するオペレーター」といった具合に、それぞれ別々のタブで同時にエージェントを動かせば、複数の予約を一度に進められるというわけです。
とはいえ現時点では、個人的にサッと予約サイトを開いて予約してしまうほうが速いかも…という気持ちは否めません。ですが、大きな視点で見れば、こういうエージェントがどんどん進化して、複数のタスクを同時並行で行ってくれるようになるのは非常にエキサイティングな時代だと思います。今はまだ動作が遅く感じることもあって決定打に欠けるかもしれませんが、将来的にはかなり便利になっていく可能性があります。

もうひとつ面白いのは、オペレーターのログを巻き戻しできることです。画面左に生成されるチャット履歴をクリックすると、AIがどうやってブラウザを操作したかを一手ずつ動画のように確認できます。Thumbtackでプロを探していた時の動作を録画のようにたどれるのはユニークですよね。

OpenAIはほかにも複数のエージェントを今後投入すると公言しており、今回のオペレーターはその第一弾的な存在といえるでしょう。今後の発展でより賢く、よりスピーディーになれば非常に頼もしい機能になるはずです。とはいえ現在はProユーザー(米国在住の200ドルプラン加入者)のみが利用可能で、EU圏などは規制の関係で対応が遅れる可能性があるそうです。

ただし、同様の機能を実装しているオープンソースの「Browser Use」という選択肢も最近登場しています。Harrison Chaseさんがシェアしていましたね。GitHubから無料で入手・利用でき、自分のPCにインストールしてOpenAIのAPIキーを使えば、ほぼ同様のことを自分で設定できるようです。実際にはCSS要素を読み取ってクリックや入力を行い、Google Docsを開いて新規ドキュメントを作る、みたいなことを自動化しているとのこと。私はまだ試していませんが、興味のある方はぜひテストしてみるといいかもしれません。

さらにByteDanceが公開したばかりの「UITars」という研究成果も、ネイティブなGUIエージェントとして似たようなことができるとされています。スクリーンショットだけを入力情報として、ユーザーがするのと同じようにマウスやキーボードを操作できるモデルみたいですね。Hugging Faceにもモデルが公開されているそうなので、いずれ比較動画などを作れたら面白そうです。

さて、今週一番大きなニュースと言われているのは「Stargateプロジェクト」でしょう。OpenAI、Oracle、SoftBankが協力して新たに立ち上げた会社で、OpenAIが技術パートナー、Oracleがクラウドパートナー、SoftBankがお金を出すパートナー、という分担になっています。そして、今後4年間で5,000億ドルを投入してOpenAI向けのAIインフラを整備するのが目的。これはとんでもない規模です。

公開された記者会見では、病気の治療や新薬開発、数十万単位の雇用創出、そしてAIにおけるアメリカのリーダーシップ確立を強調していました。もっと詳しく知りたい方は、私がアップした「The Stargate Project: The $500 Billion AI Agenda」という約15分の解説動画をご覧ください。そこで私なりの懸念点やプロジェクトの狙いも話しています。

要点だけ言うと、建前は「がん治療の研究や雇用創出、アメリカが世界トップであるための投資」ということですが、裏では軍事や監視関連、政府の情報機関(いわゆる三文字機関)との連携が本当の目的ではないかとも感じられます。詳しくは先ほどの動画をご覧いただくとして、最近になって公開された新しい映像では、すでにテキサス州で巨大なデータセンターの建設が始まっている様子が確認できます。Stargateプロジェクトはすでに動き出しているというわけです。

Oracleの参画によって、OpenAIとMicrosoftの関係がどうなるのかという疑問も出ていますが、Microsoftはすぐにブログ記事を出して「われわれは引き続きOpenAIと連携していくし、新しい技術にも契約上アクセスできるので大丈夫」と述べています。
一方、イーロン・マスクはこのStargateプロジェクトについて、あまり好意的ではないようです。Oracleのラリー・エリソンとは仲がいいはずですが、トランプ政権でトランプ氏とも親しく、今回のStargateはトランプ氏が大々的にぶち上げた計画でもあるのに、マスクは参加していない。そのあたりがちょっと複雑ですよね。

Sam AltmanがTwitter(X)でStargateプロジェクトに関する投稿をしたとき、マスクが「彼らにはそんな資金ないよ」とコメントしました。それに対しSam Altmanは、はじめは「あなたの実績は本当に尊敬しているし、最も刺激的な起業家だと思っている」という礼儀正しい返信をしていましたが、その後1時間半ほどして、「あなたが間違っています。すでにテキサスで建設は始まっているので、現地を見に来てほしい。これはアメリカのためになる。あなたの会社には必ずしもプラスにはならないかもしれないけど、いまのあなたの立場ならアメリカのためにやってくれると期待しています」と、若干挑発的にもとれる返信をしていました。

個人的には、Sam Altmanとイーロン・マスクが過去のわだかまりを乗り越えて、もう一度手を組んでほしいという思いもあります。AIの世界では、いま最も重要な人物の二人と言っていいでしょう。マスクは自前で世界最大規模のデータセンターを建てようとしていますし、Stargateプロジェクト側はさらに大きなデータセンターを建てようとしている。もし二人の力が合わされば、本当にすごいAIのスーパー企業が誕生するかもしれませんからね。

それでは次に、クリエイティブ分野で注目を集めているAI関連の話題をご紹介します。LTX StudioというAIを活用したプラットフォームで、プリプロダクションや絵コンテ制作の現場を大きく変えそうだと話題です。大きく2つ、すごい機能があります。

ひとつ目は「フェイシャル・モーションキャプチャー」。ウェブカメラでさっと表情を録画すると、LTX StudioがAIを使ってその動きをキャラクターのアニメーションに変換してくれます。しかも単純な動きではなく、かなりリアルに近い動きが自動生成されるので、通常であれば手作業で何時間もかかるアニメーション作業を一気に短縮できるのです。

そしてもうひとつは「キャラクター・ダイアログ」機能。キャラクターにセリフをしゃべらせると、その音声に合わせて唇の動き(リップシンク)が実行されます。たとえばこんな感じに使えますよ、と見本を見せてくれています。「ジャングルにいるシーンだとして、“Matt Wolfをチャンネル登録して、Likeボタンを押してね”と言うセリフをしゃべらせる」と、実際にリップシンクが同期したキャラクターアニメーションが作られるわけです。
まだまだこれらは導入機能の一部に過ぎず、LTX Studioでは絵コンテやコンセプト開発など、プリプロの過程全体を統合的に管理できます。しかも「無料のコンピュート時間」が提供されていて、一つのプロジェクトを最後まで仕上げるくらいなら十分足りるそうです。興味がある人はリンクから無料で試せるので、ぜひ体験してみてください。今回LTX Studioがこの動画のスポンサーになってくれたことに感謝しています。

次にOpenAIの小さな新情報として、Sam Altmanが1月17日に「外部の安全研究者がテストしていた03 miniが完成版に近づいた。数週間後にリリース予定。APIとChatGPT両方同時にローンチする予定だ」とツイートしました。数日後の投稿では「フリープランのChatGPTにも03 miniを入れるよ。Plusプランにはたっぷりとした03 miniクレジットを用意する」と宣言しています。つまり、03 miniはPlus限定ではなくフリーユーザーでも利用できる、ということが明らかになったわけです。

多くの人が「なぜフリープランにまで03 miniを入れるんだろう」と考えていましたが、背景には今週出てきた「DeepSeek R1」の存在があるのではないかと言われています。中国発のオープンソースモデルで、なんとOpenAIのGPT-o1モデルとほぼ同等の性能がある、と主張されているんですね。ベンチマークの結果を見ても、DeepSeek R1のスコアはGPT-o1とほぼ拮抗している。特に数学分野だとGPT-o1を上回ることすらあるようです。しかもMITライセンスでオープンソースなので、NVIDIA RTX 509のようなGPUがある人はローカルで走らせられるとのこと。さらにブラウザで使える無料版もあって、deepseek.comにアクセスして“DeepThink”を選ぶと、このR1モデルが無料で使えます。

私のライブ配信でも試してみましたが、「Snakeゲームを作って」と一回指示するだけで、かなりまともなコードを一発で書いてくれました。それだけでなく「Chain of Thought」を隠さずにすべて表示するので、何をどう考えてコードを組み立てているのかがすべて読めるんです。「Snakeゲームには食べ物を食べるとヘビが伸びる要素が必要だよな。グリッドをこう使うんだよな」といった思考が丸見えで、最後にはコードをまとめてくれます。実際に動かしてみたら、ちゃんと壁に当たるとゲームオーバーになるところまで機能していて、それがたったひとつのプロンプトで完了しました。

ほかにも「地球は太陽から8分20秒の距離だ。地球が公転している速さはどれくらい?」と聞いたところ、DeepSeek R1は102秒もかけていろいろ計算の過程を考え、最終的に約29.9km/sという正解を導き出しました。これもライブ配信中に視聴者の方が検算して「合ってるね」と確認してくれました。Matthew Bermanという方はもっと詳細にテストをして、DeepSeek R1がほぼGPT-o1レベルの性能を発揮していることを証明しているようです。LlamaやMistalなどのオープンソースモデルと比べても格段に良いし、クローズドソースのモデルの中にも追い抜かれるものが出てくる可能性がある。こういった流れを見ると、OpenAI側も03 miniをフリープランにまで入れて対抗せざるを得ないのでは、という見方があるわけです。

次はPerplexityの話題です。今週「Perplexity Assistant」というAIアシスタントを公開したのですが、今のところAndroidでしか使えないようです。機能としては再び「自動操作」が目玉のようで、「デート向けに最高の日本料理店を予約してほしい」「いま読んだばかりの本の内容に似た本を探して」といったリクエストに応えて、勝手に検索してくれたり、まとめてくれたりします。スマホの画面を見ながら「このページを要約して、ジョンに送って」と指示すると、ページの内容を要約してメールにまとめてくれる。あるいは「次のウォリアーズの試合の2時間前にリマインドして」と言えば試合時間を調べ、リマインダーを設定する。まさにSiriやGoogleアシスタントがやりたかったであろうことを実装しているわけですね。

さらにPerplexityは「Sonar API」もリリースしました。これは開発者向けで、リアルタイム検索と大規模言語モデルを組み合わせた結果をAPIで返してくれます。GoogleのAPIやOpenAIのAPIにも似たような機能がありますが、Perplexityでもそれをやれるようになったということです。

Google DeepMindは新モデル「Gemini 2.0 Flash Thinking」を発表しました。2.0 Flash→2.0 Flash Thinking→2.0 Flash Thinking…と世代を重ねて、数学と科学の正答率が大幅に上がったようです。いまのトレンドとして、単にモデルを大規模データで訓練するだけでなく、推論段階(ユーザーからのプロンプトを受けたあとの処理)で時間をかけて考えを深める「思考プロセス強化」によって回答精度を高める、という手法が主流になりつつあります。DeepSeek R1も、GPT-o1やGPT-03もそういった形で高性能化しているわけです。

実際、Chatbot Arenaというサービスのランキングを見ると、ユーザーが2つのモデルから返された回答を比較してどちらが良かったか投票する仕組みなのですが、そこでの首位をこの「Gemini 2.0 Flash Thinking」が獲得しているようです。DeepSeek R1はエントリーされていないようですが、同じDeepSeek系の古いモデルはすでにあるので、今後R1も登録されればどうなるか注目です。Google Colabのように手軽に試すには、aist.studio.google.comでモデル選択欄からGemini 2.0 Flash Thinkingを選べば使えるとのこと。動作速度もかなり速いそうです。

Anthropic(Claudeの開発元)関連では、Googleが追加で10億ドルを出資したというニュースがありました。GoogleはすでにAnthropicに20億ドルを投資しており、そこに今回の追加1億…ではなく、さらに大きな額を注ぎ込むことで、Amazonとの板挟み状態をどうするのか注目が集まっています。AmazonもAnthropicに大きく投資しているので、GoogleとAmazonが両方ともAnthropicに絡んでいる構図が面白いですよね。

AnthropicのAPI面では「新しい引用(citations)機能」が追加され、開発者がPDFなどのドキュメントを追加情報として与えると、Claudeが参照元を明示できるようになりました。ソースをちゃんと示した回答が返ってくるわけです。一般ユーザーに直接関係する機能ではありませんが、企業や開発者にとってはありがたいでしょう。

Adobeも今週、いくつかAI関連の新機能をリリースしました。まずPremiere Pro(ベータ版)ではAIを使ったメディア管理が強化されていて、撮りためたフッテージに対して「赤いカヌーの映像を探して」と入力するだけで、その映像を見つけ出してくれるようになるとのこと。たとえばイベントで長時間のビデオを回したとき、特定のロボットやアイテムが写っているシーンだけ拾いたい場合に大幅な時短が期待できますよね。

また、キャプションを一括翻訳する機能も搭載されました。英語で字幕を作ればスペイン語、フランス語、ドイツ語…と、多言語で字幕を用意できるので、多国籍にコンテンツを発信したい人には便利だと思います。

Runway AIは新しい画像生成モデル「Frames」をリリース(まだロールアウト中のようで、人によって利用可能かどうかは異なるかもしれません)。試しに「そばかすのある黒髪の女性が、太陽に照らされた地平線の空をバックにしたポートレート」というようなプロンプトを入れると、けっこうリアルで美しいビジュアルを作ってくれました。Fluxのような最先端モデルと比較してどうかはまだ判断しかねますが、色の扱い方が結構魅力的に感じます。

たとえば「オオカミが月に向かって遠吠えしているイラスト」を試したところも、独特の色彩で良い感じに仕上がりました。ほかにも「砂漠で核の呪文を唱えたら大爆発が起こったアニメ風の魔法使い」というシーンをリクエストしたら、なかなか悪くない結果を出していました。イメージ系モデルは人によって好みが分かれるので、現行のモデルで満足できない場合にはRunwayのFramesも試してみる価値はありそうです。

Freepikも「Imagine 3」(発音はイマージンかイマジンか定かではありませんが)をリリースしており、Freepik利用者ならAI画像生成を同プラットフォーム上で直接行えます。

Korea AI(KAIA)の新機能も面白そうです。自分の好きなスタイルやキャラクターなどをトレーニングして、回転やアングルを変えたりできる「Realtime Custom AI Models」を導入していました。たとえば自分の顔写真を多数アップして学習させ、仮想3D上でポーズをいじったり、背景をペイントしたりできます。ただしアップロードする画像の解像度が低いと生成結果がノイズっぽくなりがちなようで、もっと大きい画像を使ったほうがきれいになると思います。

PikaというAI画像生成サービスは「Pika 2.1」の予告をしていて、これは発表の予告に過ぎないのですが、SNSで公開されているサンプル画像はなかなか見栄えがいいです。詳しい機能はアナウンス待ちといったところでしょう。

Splineというサービスも「Spell」という新機能を発表し、一枚の画像だけから3Dを生成するデモ動画を公開していました。たとえば一枚の鳥の写真をアップロードすると、それを元に3D空間で好きな角度から見られるような「ガウシアン・スプラット」を生成し、あたかも3Dモデルみたいに回転できるんですね。公式サイトには試せるデモがいくつか並んでいて、すべて1枚の画像から立体的な形状を推定しているようです。背景も含めてぐるぐる動かせるので、「本当にこんな風に推定するんだ」と感心します。ただ、これを本格的に使いたい場合は月99ドルというサブスクが必要なので、ちょっとハードル高いかもしれません。

ByteDanceが発表した「Humen 3D2」も同じくAIで3Dオブジェクトを生成する技術です。先ほどのSplineのSpellと似ていますが、こちらはちゃんと形状をポリゴンとして高精度で再現しようとしているようで、生成されたモデルの例がいくつか公開されています。こちらもまだ自分で試してはいませんが、AIによる「2Dから3D化」はどんどん進化していて、私も一部ではAI生成のデザインを3Dプリンターで出力してみたりしているので、今後がとても楽しみです。

プログラミング用のAIといえば、すでにCursorやWindSurf、あるいはVSCode向けのアシストなどが出回っていますが、ByteDanceが独自のAIコードエディタ「Try」(trae)をリリースしました。CursorやWindSurfと似た感じで、GPT-4oを組み込んだ支援ツールになるようです。

米国では今週、トランプ大統領が就任して最初にやったことのひとつとして、バイデン政権が出していた「AIリスクに関する大統領令」を早々に取り消しました。この大統領令は「安全保障や経済、公共の健康や安全にリスクをもたらし得るAIシステムをリリースする際には、Defense Production Actに基づき安全試験の結果を政府に共有すること」を義務づけていたのですが、それを撤回したわけです。トランプ大統領はダボス会議で「アメリカを製造業の超大国に、そしてAIと仮想通貨の世界的首都にする」と発言しており、どうやらより積極的にAIで世界のトップを狙っているようですね。

最後に、Andrew Arkinsさんから教えてもらった興味深い研究を紹介します。Yale大学医学部の研究者が開発したAIが、心電図(ECG)の画像から将来的な心不全リスクを判定できるそうです。これにより心不全のハイリスク群を早期に把握し、入院や早期死亡のリスクを抑えられる可能性があるとのこと。Stargateプロジェクトが動いて、さらに巨額の資金が医療系の研究に流れていけば、今後はこうした予防医療や新薬開発のニュースが次々出てきそうです。2025年にはこうしたAIの医療応用が加速するだろうと、多くの人が期待しています。

というわけで、今週のニュースは以上ですが、本当に盛りだくさんでした。2025年はここからさらに加速していくでしょう。毎週のように巨大な発表が続き、新しいツールが生まれ、既存ツールが新機能を追加していく。私としてはこの盛り上がりを大歓迎しています。きっとこの一年は、エージェント系の爆発的な増加や、ヘルスケア分野の進展、映像や画像、さらには3Dの進化が飛躍的に起こるはずです。推論段階の「テスト時コンピュート」でどんどん考え込むようになり、より優れた出力を得られるようになるモデルが増えるのも確実でしょう。すさまじい時代に突入しましたね。

今後もこういったニュースや新機能を、私のチャンネルでできる限りフォローしていきます。もし興味があれば「いいね」やチャンネル登録をしてくれると嬉しいです。チュートリアルやニュース、AIツールの紹介など、これからもどんどんアップしていきます。それからもしまだなら、私のサイト「futuretools.~」もチェックしてみてください。見つけた面白いAIツールをひたすら掲載しているうえ、AIニュースのページも毎日更新中。さらに無料ニュースレターでは、週2回ほど「これは使える!」というツールや、押さえておきたいAIニュースをまとめてメールで送っています。サインアップは無料ですし、登録してくれた方には「AI Income Database」という、AIを活用して稼ぐための事例をまとめたデータベースも差し上げています。興味のある方はぜひ覗いてみてください。

LTX Studioを再度スポンサーとしてご紹介しつつ、この動画は以上となります。最後まで見ていただき、本当にありがとうございました。では、次の動画でまたお会いしましょう。バイバイ。

いいなと思ったら応援しよう!