見出し画像

重大なAIニュース: OpenAIがSoraをリリース、完全AI生成ゲーム、新しいAIエージェント、脳の再現...

10,794 文字

まず今週発表された最初のニュースの1つは、o1プレビューがo1フルバージョンに移行したことです。この新バージョンには高度な画像分析機能が追加されました。私はこれがo1の非常に過小評価されている機能の1つだと思います。プロモードだけでなく、高度な画像分析が可能になったことが大きな特徴です。画像分析は誰もが使用するわけではないため過小評価されがちですが、画像を使って数十億もの異なることができます。
これはo1のフルバージョンでリリースされた機能です。多くの人々がまだこれを活用していませんが、数週間後には世界中の人々がo1の画像分析を使って驚くべきプロンプトを公開し始めるでしょう。o1、特にo1フルバージョンについて、多くの人々は発売当初このバージョンは期待外れだと述べていましたが、ベンチマークは実際にはo1の真の性能を過小評価していました。
o1とo1プロモードのベンチマークについて、多くの人々は「月額200ドルを支払う価値があるのか」と疑問視していました。しかし、実際にo1プロモードを使い始めた人々からは、OpenAIへの期待とは異なる、むしろ予想以上の良い結果が得られているという評価を聞くようになりました。最も高度なユースケースでこのモデルを使用している人々から、「o1プロモードは本当に価値がある」「o1は思っていたよりもずっと優れている」という声が聞かれています。
ここで違いを示すために、競技プログラミングのスコアを例に挙げると、o1プレビューからo1への性能向上は約100%のジャンプを示しています。26から64へと向上しているのです。全員がこれを購入するわけではありませんが、その強力さゆえに一部の人々は購入を検討するかもしれません。o1プロモードは最も長時間考えることができるモデルですが、これはまだo1に過ぎません。モデルに追加される計算能力とともにベンチマークは継続的に向上しており、o2、o3、o4といった将来のモデルではどうなるのか興味深いところです。
AIのベンチマークを見る際に人々が常に忘れがちな重要な点があります。競技数学、競技プログラミング、PhD科学の質問など、あらゆる絶対的なベンチマークには何らかの誤差が含まれているということです。つまり、これらのAIモデルは私たちが考えている以上に賢いのです。モデルがテストで94-95%のスコアを取得している場合、通常それはモデルがベンチマークを飽和させていることを意味します。
先ほど言及したベンチマークの多くには2-3%、あるいは5%の誤差が含まれている可能性があります。そのため、多くのモデルが95-96%付近のスコアを示しているのを見て、「100%に到達するのはいつだろう」と考える人もいますが、一部のベンチマークでは単純に不可能なのです。だからこそSammanは将来的にベンチマークの飽和が起こり、これらのモデルが完全にベンチマークを達成するだろうと述べているのです。これがAI分野にとって何を意味するのか、非常に興味深いところです。
o1プロモードで重視されているのは信頼性です。月額200ドルのこのモデルの結果は4回中4回の成功に基づいています。4回のテストを行い、4回とも正解した場合のみその応答がカウントされました。
興味深いのは、Googleのジーニー2の発表です。これは本当に素晴らしいものでしたが、まだアクセスできないため、あまり注目されませんでした。これはGoogleがリリースしたもので、AIの未来を考えると本当に驚くべきものです。画面で見られるように、シンプルなテキストプロンプトでビデオゲームを作成することができます。「火星上のゲームを作って」「この場所でファーストパーソン・シューターを作って」と指示するだけで、実際にそれらを探索することができます。
確かに、マルチプレイヤーゲームはシングルプレイヤーゲームとは大きく異なりますが、これの応用可能性は全く異なると考えています。これらの生成的な世界をどのように解決し、ある方向から別の方向を見た時の一貫性を保つことができるか、そしてジーニーがそれを解決できたということは、ゲーム業界にどのような影響を与えるのか非常に興味深いです。
AIが生成するゲームを楽しみにしている人も多いでしょう。手続き的に生成され、すべてが完全に新しく、無限の再生可能性を持つゲームというアイデアは、近い将来、おそらく10-15年後には、各プレイヤーが独自にカスタマイズされた体験を持つAI生成ゲームになるかもしれません。ビデオゲームの再生可能性にどのような影響を与えるのか、AIが生成するたびに誰もが新しい驚くべき体験ができるとしたら、それは非常に興味深いです。
このことは過小評価すべきではありません。ジーニー1は2Dでしたが、ジーニー2は実際に3Dになりました。これは1-2週間前にリリースされたマインクラフトAIよりもさらに優れた大きな進歩でした。この技術が他のゲームに統合され、デモが利用可能になった時に何が起こるのか、非常に楽しみです。
次にGoogleのジェンキャストについてです。これはGoogleディープマインドが開発した高度なAI搭載の天気予報モデルで、従来のモデルと比較してより速く、より正確な天気予測を提供します。その能力と、LLM以外のAIが世界全体をどのように変えているかについての概要をご覧いただけます。
何世紀もの間、人類は天気を理解しようと奮闘してきました。濡れた指を風にかざしたり、コオロギの鳴き声を聞いたり、星を見て答えを探したりしてきました。今、私たちはAIが予測の進歩と理解を手助けできると考えています。メテット3とグラフキャストをご紹介します。これらは、より正確な天気予報を生成するために設計された深層学習モデルです。
従来の方法は、数百の変数が相互作用する全システムをシミュレーションすることで機能します。実際には、これらの変数を方程式に抽象化し、手動でアルゴリズムにコード化する必要があります。私たちのAIモデルは異なるアプローチを取ります。過去の気象データを分析して、気象条件間の因果関係を学習します。これらの学習により、モデルはデータ内の微妙なトレンドとパターンを見つけ、それらを外挿して将来を予測することができます。
メテット3とグラフキャストは、世界最高のシステムを上回る性能を発揮し、より遠い将来をより正確に、効率的に、より速く、より詳細に予測することができます。通常の天気から極端な気象まで対応可能です。メテット3はすでにGoogleサーチの24時間天気予報の精度を向上させており、グラフキャストモデルはオープンソース化され、ECMWFが予報生成に使用し、ウェブサイトで公開しています。
ハリケーンへの早期準備を支援したり、農家がより良い作物を育てられるようにしたり、傘を持っていくべきかどうかの判断を助けたりする未来を想像してください。AIは天気の予測だけでなく、人々がより良い生活の決定を下すことを手助けするでしょう。
ジェンキャストの動画は確かに素晴らしく、天気予報などができることは良いのですが、将来的には多くのAIツールが私たちが想像もしなかったことを予測できるようになると考えています。例えば、GPT-4を使って州ごとの選挙結果を80%の精度で予測できたという研究もありました。これは本当に驚くべきことで、GPT-4でそれが可能だったとは想像もできませんでした。
これが、これらのLLMが私たちが考えている以上に賢いと言う理由です。将来的にAIは多くの異なることを予測できるようになり、天気はそのうちの1つに過ぎないでしょう。
先週、AmazonがMicro Nova、Light Nova、Nova Pro、Nova Premiereなど、多くのモデルを導入したことについて話しましたが、ジェフ・ベゾスがAmazonのAI開発に非常に熱心に関わっていることは知りませんでした。
ベゾス: AmazonでAIに関して何をしているかということですが、いくつかありますが、小規模なものです。しかし95%がAIです。社内で文字通り1000のアプリケーションに取り組んでいます。現代のAIは水平的な実現層であることを覚えておく必要があります。すべてを改善するために使用でき、すべてに組み込まれることになります。
これは電気のような水平的なレイヤーに最も似ています。電気やコンピュータ、そして今や人工知能といった水平的なレイヤーは、あらゆる場所に行き渡ります。AIによって改善されないアプリケーションは1つも存在しないことを保証できます。
誰もがAIに注目している中、私もAIに注目しており、この60秒の時間を使って恥ずかしげもなく私のAIグリッドアカデミーを宣伝させていただきます。これは最近リニューアルしたもので、200人以上の人々がAIエージェントとプロンプトテンプレートを使用して収入を得ています。毎週、人々がこのAI革命をどのように活用できるかについて、さまざまなリソースを共有しています。
多くの企業がこれを未来として注目していることを知っているため、29時間後に始まるワークショップ・ウェンズデーでは、成功戦略をシンプルで実行可能なステップに分解します。AIエージェントを使用して収入を得る方法を具体的に示すプライベートビデオもあります。金曜日にはこれらの多くを自動化するための最高のAIツールを紹介し、日曜日にはコミュニティ内やインターネット上でAIで真剣に収入を得ている人々のさまざまなケーススタディを分析します。
興味がある方は、説明欄の最初のリンクをチェックしてください。では、ビデオに戻りましょう。
今週起こった驚くべきことの1つは、機械学習のPhDを持ち、より重要なことにOpenAIの技術スタッフメンバーとして働いているVahid Kazimiが、絶対に驚くべき発言をしたことです。彼は自身の意見として、o1でさらに明確になったように、彼らはすでにAGIを達成していると述べました。人間よりも優れているタスクは1つもありませんが、ほとんどのタスクでほとんどの人間よりも優れています。
正直に言って、最初の文、最初の一行を言葉にするのも speechless な状態です。もしOpenAIがAGIを達成したことが本当なら、それは人類の偉大な達成の記念碑的なマイルストーンとなるでしょう。これは彼の個人的な意見としてのAGI達成であり、OpenAIが公式に発表したわけではありませんが、OpenAIの技術スタッフメンバーがこのような発言をしたことは、AI分野の現状を示す重要な指標です。
以前はAGIが近い将来に来るという話は笑われていました。7ヶ月以内にAGIが来るなどと言うYouTuberたちは多くの人に笑われていましたが、今では多くの人が12月にはAGIを手に入れる可能性があると述べており、これは大多数の人が考えていたよりもずっと早いペースです。
最も重要なのは、o1からo2へ、そして思考モデルへと移行する中で、AIとは何かを見分けることが非常に曖昧になっていくということです。誰にとっても最も困難なことは、新しい技術が日常生活に直接影響を与えない限り、その技術がどれほど影響力を持つのかを本当に理解することは難しいということです。
ChatGPTが非常に驚くべきものだった理由は、すべての大学生が使用でき、誰でもメールを書いたり、時には法的文書を作成したりするのに使用できる、日常的に使用できるものだったからです。たとえAGIに到達したとしても、プロモードは平均的な人々には使用する機会がない高度なタスクが得意だということを話したことを覚えていますが、世界が私たちが経験している変化のレベルを理解するのは非常に困難でしょう。
Airbnbの創業者であるBrian Cheskyは、これについてよく語っています。物事は変化していますが、ほとんどの人々はそれに気付いていません。2年前まで、ほとんど誰もAIについて話していませんでした。そしてChatGPTが登場し、生成AIの革命が始まりました。しかし、それがとても刺激的なものであるにもかかわらず、生成AIによってあなたの日常生活が大きく変わったという人はほとんどいないでしょう。
テストとして、スマートフォンを取り出し、ホーム画面のアプリを見て、2年前と比べて生成AIによって本当に変わったものは何かを考えてみてください。AI専用のアプリを除いて、Airbnbを含むすべてのアプリが、AI世界において根本的に完全に異なるものになっているとは思えません。そして、今日あなたがAIによって根本的に変わったことは何かを自問してみてください。おそらくゼロでしょう。
私は1981年生まれで、インターネットの記憶は1993年頃、検索エンジンが登場する前からありますが、その頃、ウェブサイトを見つけるのにどうやっていたか覚えていますか?電話帳のようなものがあり、実際にウェブサイトが載っている電話帳があって、何かについて学びたい時はその電話帳を見て、ブラウザに入力していました。
これを言及する理由は、私たちは今まさにAIの「電話帳段階」にいると感じているからです。まだそれほど初期の段階なのです。デジタル世界を変え始めていますが、まだ私たちの生活の最も重要な部分である物理的な世界を変えていません。それが、あなたの生活がAIによって完全に変わっていない理由の1つかもしれません。電話の中で変化が起きても、私たちの物理的な現実は以前とまったく同じだからです。
他の進展についても、llama 3.3 70億パラメータを獲得しました。正直に言って、llamaは私を驚かせ続けています。metaと言うべきですが、彼らが生産しているものの量で私を驚かせ続けています。AIの分野で多くの異なることに取り組んでいることを明らかにしており、metaの良い点の1つは、LLMだけでなく他のことにも取り組んでいることです。これは本当に魅力的です。
llama 3.3 70bは、metaの大規模言語モデルファミリーの最新イテレーションで、もちろん70bは700億のパラメータを持っています。このモデルは、効率性とアクセシビリティを維持しながら、高性能な自然言語処理タスク向けに設計されています。対話やタスク固有のユースケースに非常に効果的な命令追従タスク用に微調整されています。
改善は信じられないほど素晴らしいものです。面白いことに、そして驚くべきことにこれがよく起こるのですが、llama 3.3 70bのパフォーマンスを見て、最近リリースされたAmazon Nova Proと比較すると、さまざまなケースでわずかに上回っていることがわかります。MMLUUは86で、Amazon Nova Proは85.9です。
異なるモデルには数値だけでは見えない質的な違いがあると思います。これはもちろん多くの人が考えることですが、モデルを使用すれば、一部のタスクでは優れている一方で、他のタスクでは完全に失敗することにすぐに気付くでしょう。しかし、私が皆さんに伝えたいのは、Amazonが今週モデルをリリースし、その3日後にllamaが別のモデルをリリースするというのは驚くべきことだということです。
これは以前のモデルを時代遅れにするわけではありませんが、「あ、何か良いものを手に入れたと思ったら、他の誰かが自分のモデルをリリースする」というような状況です。このような進歩の速さは本当に驚くべきことです。もちろん、価格差は絶対的に驚くべきものです。このモデルはさまざまなユースケースに使用できる非常に効果的なモデルとなることを意図しています。
多くの人々がこのモデルを使って何かを構築するのを見るのは非常に興味深いでしょう。私も以前言ったように、コミュニティでこのようなことを始める予定です。このモデルが特定のベンチマークでどのようなパフォーマンスを示すのか、そしてGPT-4oからそれほど遠くないように見えるので、一部の人々はこれをローカルのGPT-4oのようなものだと言っています。そのモデルとの比較がどうなるか興味深いところです。
ローカルモデルといえば、オープンソースが驚くべきことを成し遂げました。オープンソースビデオは完全に野生化し、Hunanという動画生成モデルが登場しました。本当に、このビデオを見たとき、とても良く見えると思いました。その後、人々が実際にモデルを実行し、動画を作成してTwitterに投稿しているのを見ましたが、それがAI生成なのか判断するのが本当に難しいものでした。
このオープンソースの動画モデルは、生のカメラやiPhoneで撮影したような素材で学習させたようです。見える映像は洗練されていませんが、とても不自然で、そのため現実的に見えるのです。これはさらに疑問を投げかけます。トランプが別の女性にキスをしているビデオを見て、5分間デスクに座って、それがAI生成なのかどうかを判断しようとしました。最終的にAI生成だとわかりましたが、これは間違いなく不気味の谷に到達したことを示しています。この動画ジェネレーターは本当に信じられないものです。
すべてのこの中で最も驚くべきことは、これがオープンソースだということです。誰でも実行でき、利用可能なプロバイダーもあります。これは完全にゲームチェンジャーになると思います。なぜなら、これは彼らの最初のイテレーションであり、3年後に本当のオープンソースの動画生成ツールとソフトウェアを手に入れたときのことを想像してみてください。それは非常に効果的なものになるでしょう。
正直に言って、このことに本当に驚いています。トランプやイーロン・マスクが特定の行動をしている動画を見たとき、「これがAI生成?」と思いました。「はい、はい、はい、新しいパラダイムに入った」と。そして、先ほど述べたように、人々のデバイスでローカルに実行できるということは本当に驚くべきことです。有名人が特定の行動をしている動画を見始めたら、本物かどうか見分けることはできないでしょう。
さらに思索的な考えを持つと、E11バイオスが脳マッピングにおいて画期的な飛躍を遂げました。より安価で、より速く、よりスマートになりました。彼らは従来の方法と比べて100分の1のコストで脳をマッピングする革新的な方法を発表しました。この進歩により、人間とマウスの脳全体を研究することが実現可能になり、脳障害の治療法の発見や人間のようなAIの作成、脳のシミュレーションの可能性が開かれました。
脳マッピングまたはコネクトミクスは、個々のニューロン間の接続に至るまで、脳がどのように機能するかを理解するのに役立ちます。これは実際に、より人間のように考える高度なAIシステムの構築につながる可能性があります。以前、ショウジョウバエの脳のマッピングに成功し、これは素晴らしいマイルストーンでしたが、人間やマウスの脳へのスケーリングは非常に複雑です。マウスの脳はショウジョウバエの6,500倍大きく、人間の脳は数百万倍大きいのです。
そのサイズをマッピングしようとすると、数十億ドルかかります。彼らが成功したことの1つは、コストを削減し、これを可能にしたことです。これは本当に素晴らしいことです。なぜなら、より大きな脳のマッピングをより多く行えるパラダイムに入ったからです。
彼らが開発したプリズムは、AIのエラー問題を解決することでコストを劇的に削減します。ニューロンは IDのように機能するユニークなタンパク質バーコードを生成し、それらを区別し、校正しやすくしています。このバーコードシステムにより、AIは自己校正が可能になり、人間の関与の必要性が減少します。さまざまな技術を統合していますが、全体として見ると、これはAI愛好家にとって、人間のようなAIがすぐに実現するかもしれないと考えている人々にとって、素晴らしいニュースです。これはニッチな話題だと思いましたが、やはりAIに関連する話題です。
AIに関する他のニュースとして、World Laabsから驚くべきアップデートを受け取りました。この会社は信じられないことをしています。VRの未来がどのようなものになるのか、シンプルなテキストプロンプトで特定の世界をどのように探索するのか、それを示してくれます。これは本質的に大規模世界モデル(LWM)で、物理学、意味論、空間関係を統合して、現実的で没入感のあるデジタル環境を作成します。
画像から3D世界を生成し、1枚の画像を完全にインタラクティブな3D環境に変換でき、スムーズなカメラコントロールとオブジェクトとのリアルタイムな相互作用が可能です。生成された世界は実際の物理法則、空間関係、オブジェクトの相互作用に従い、照明や被写界深度を操作することができます。5秒前に生成したばかりの現実で、できることは本当に驚くべきことです。
この技術は、ゲーム開発者、映画製作者など、さまざまな分野で応用可能です。ビジュアルストーリーテリング、建築とデザイン、教育とトレーニングなど、数十億もの用途があります。この技術は、初期段階では驚くべきものとは見えないかもしれませんが、これがどれほど驚くべきものになるかを理解し始めると、「ああ、これが大規模言語モデルにとってのGPT-2のような瞬間だったのだ」と理解するでしょう。
イーロン・マスクもX.で内部開発された画像生成ツール「Grok Aurora」をリリースしました。このモデルは有名人やインフルエンサーのかなりリアルな画像を生成することができます。私は多くの異なるAIモデルを見てきましたが、ほとんどのモデルはサマンや他の個人を再現することができません。これがどのように機能するのか非常に興味深いでしょう。
いくつかの異なる例を見てきました。ここでGrok Auroraの有名人の類似性を見ることができ、イーロン・マスクが非常に面白いことをしている他の例も見てきました。正直に言って、それらは超現実的に見えます。超現実的な何かを生成したい場合、これはもちろんあなたのためのツールです。X.comで利用可能で、月額メンバーシップを支払う必要がありますが、彼らが独自のAIモデルを開発したことは興味深いです。
以前はFluxを持っていましたが、何らかの理由で独自の画像生成モデルを開発することを決定しました。サイバートラックやテスラボットなど、特定のものに関して学習させており、これらのものを生成したいけれどもこれまでできなかった場合、このモデルがあなたのためのものとなるでしょう。
11 Labsが会話AIを導入し、AIエージェントの構築が以前にも増して容易になりました。「今日は何についてお話ししましょうか?」11 Labsの会話AIを紹介します。技術との最も自然なコミュニケーション方法のための、オールインワンプラットフォームで構築、テスト、デプロイが可能です。「注文状況を確認できますか?」「はい、もちろんです。確認させていただきます。お客様の注文は午後2時頃に到着予定です。」
会話AIエージェントの構築は以前は非常に複雑で、膨大なリソースを必要としましたが、もはやそうではありません。声を作成するか、私たちの広範な高品質ライブラリを探索してアプリケーションに最適な声を見つけることから、エージェントの構築を始めることができます。「DHKオンラインへようこそ。本日はどのようなご用件でしょうか?」
最高のLLMの中から選択し、ナレッジベースをアップロードし、エージェントの目標とパーソナリティを定義するか、完全なコントロールを得るために独自のサーバーを統合することができます。「こんにちは、バウンドイベントのエリックです。ご用件は何でしょうか?」「すみません、チケットを2回購入してしまいました。払い戻しは可能でしょうか?」「もちろんです。参照番号をお読みいただければ、処理を開始させていただきます。」
私たちのシステムは会話を分析・評価し、価値ある洞察、会話の再生、テストと成功基準の定義が可能です。そしてすべてが32の異なる言語で可能です。「DCメディカルへようこそ。ご用件は何でしょうか?」そして最高なのは、単一のコピー&ペーストでウェブサイトにエージェントを簡単にデプロイできること、またはSDKを活用してアプリ、サービス、さらにはビデオゲームを作成できることです。
数ヶ月ではなく数日で本番環境に移行でき、すべてがエンタープライズグレードのセキュリティでユーザーデータを安全に保護します。11で会話AIの大きな可能性を探求する時が来ました。
そして最後の1つが、OpenAIのSoraでした。これは本当に素晴らしいと思いました。他の中国のモデルがモデルのデプロイメントでOpenAIを追い越しているのを見ていますが、OpenAIのモデルの品質、プロンプトへの忠実さ、物理法則の扱いを見ると、somehow OpenAIは競合全体をわずかに上回っています。
私のような英国在住者には、VPNを使用する裏技を知っている場合を除いて、現在利用できませんが、これはクリエイティブな人々にとって非常に有用なものになると思います。このビデオの最後に見せたいと思うのが、おそらく最高の機能だと思われるものです。AIフィルムを作りたい場合、これを使用することになるでしょう。
基本的に、ストーリーボード機能があり、「コウノトリにこれをさせたい」「次に動物にこれをさせたい」「その後動物にこれをさせたい」と指示することができ、AI世界で完全な映画を作成するのに本当に便利になります。これは個人的に非常にクリエイティブで興味深いものだと思います。AIビデオの洪水が来ることでしょう。
もちろん、ブレンドのような機能もあり、リカットなど、Soraでできることは数多くあります。これは単なる動画モデルではなく、プラットフォームを発表し、そのプラットフォーム上にたくさんのツールがあり、モデルの動作を完全にコントロールすることができます。これは非常に効果的なものになるでしょう。グリッチについてはお詫びいたしますが、このビデオを楽しんでいただけましたら、次回もお会いしましょう。

いいなと思ったら応援しよう!