AIニュース: OpenAIが来年の計画を発表、AGIの実現時期が早まる、Googleの秘密の新ツール!
14,697 文字
はい、まず最初の驚くべきニュースは、Soraが一般に流出したということでした。もちろん、実際のツールが流出したわけではなく、Hugging FaceのチャットにラップされたAPIキーが流出しただけでした。数日前、この記事を見ていた時、多くの人が目にしたことですが、基本的に何が起こったかというと、怒りを感じたアーティストたち、というか1人のアーティストが、OpenAIのアルファプログラムもしくはベータプログラムを望まないと判断したんです。
ここで見ていただけるように、皆さんの中には既にご覧になった方もいらっしゃると思いますが、基本的に彼らは「私たちはSoraへのアクセス権を得て、早期テスターになることを約束されましたが」と言って、なぜか怒っていました。「私たちは無料のバグテスター、PRの操り人形、トレーニングデータの検証トークンではありません。この全ての作業を無料でやっているのです」と。彼らは基本的にOpenAIが無給の研究やデザイン、PRのためにアーティストを搾取していると主張していたのですが、私の知る多くの人々にはこれが理解できませんでした。
というのも、おそらくこのプログラムに招待されたのに、このプログラムに選ばれることを望んでいた多くのアーティストがいたからです。だから、このプログラムに参加していた人々がなぜ怒ったのか理解できません。彼らは「すべての出力をOpenAIチームに共有前に承認してもらう必要がある」といったことに怒っていましたが、もちろんそうですよね。生成AIの画像を扱っているわけですから。
もし音楽の生成AIや画像の生成AIを作る会社があれば、競争の激しいAI業界で、自社のソフトウェアが悪いと人々に言われるような、ひどい画像が出回ることは望まないでしょう。これは私にはまったく理解できませんでした。なぜ彼らがこれに怒っているのか分かりません。まあ、10%くらいは理解できるかもしれませんが、やはり意味が分かりません。
この件の本当の大きなニュースは、OpenAIが邪悪な会社だということではなく、Soraモデルに関する特定の動きがあったということで、これはこのアーティストのドラマよりも興味深いものでした。そのニュースは基本的に、このモデルには異なるスタイルがあるということです。ここで「natural」というスタイルがあるのが分かります。また、インペインティングもあるようで、「inpaint item」という表示があります。
最も興味深いのは、実際に手に入れたモデルがturboモデルだったということです。これは、Soraがリリースされる時には、主にturboモデルと、おそらくより高価なモデルがあり、後者は特定の動画を生成できるということを意味しています。
また、この件で最も驚くべきことの1つは、Soraが現存する他のモデルよりもはるかに優れているということでした。これはかなり驚くべきことです。なぜなら、多くの人々がCellingやその他のモデルの方がずっと優れていると言っていたからです。しかし、TwitterでEthan Mikが「私は多くのモデルをテストしてきましたが、このモデルはSoraよりもかなりの差をつけて優れています」と述べていたのは、とても驚くべきことでした。
多くの人々が「OpenAIは今や遅れを取っている、もう勝負に負けた」と言っていましたが、彼らがまだリードしていることは明らかです。また、ここで「video gen」という部分が見えますよね。これが「video gen」というタイプだとすると、おそらく画像生成もあるということです。つまり、Soraと一緒に画像生成モデルも得られる可能性があるということです。
OpenAIがこれを実際にリリースするかどうかは分かりません。というのも、OpenAIは今や非常に大きな企業となり、あらゆるリリースが精査の対象となっているからです。他の企業が何かをしても、OpenAIほどの精査は受けません。なぜなら、彼らはとてつもなく大きなブランド認知度を持っているからです。最初にSoraをリリースした時を覚えていますか?多くの人々が「なぜ誰かが生成AIツールを必要とするのか、それは人類の芸術的創造性を奪うだけだ」と言っていました。
だから、彼らがこの画像生成ツールをリリースした場合、同じような反発に直面するのかどうか気になります。その側面で何が起こるか興味深いところです。
また、ほとんどの人が見逃していたのは、Googleが実際にGoogle Experiment Labsをリリースしたということです。これは「Generative Chess」と呼ばれ、「Googleの画像と3Dモデルを使用してアイデアをプレイ可能なアート作品に変換する。今すぐ作成してプレイしよう」というものでした。
これは、デモを作成する時にもっと創造的であればよかったと本当に思うものですが、基本的に何ができるかというと、チェスをプレイでき、好きなものでチェスの駒を生成できるのです。前述のように、もっと創造的であればよかったと思います。見ていただけるように、私が作ったのはマインクラフトにインスパイアされた生成チェスゲームでした。なぜすぐにマインクラフトを思いついたのかは分かりません。AI生成のマインクラフトを見たからだと思いますが、ビデオゲームのことを考えていて、そしてFortniteと入力しました。
これはおそらく、私が使用できた最悪の例だと思います。中世風とか、セラミック風、木製風など、億という選択肢があったはずです。ここで見ていただけるように、これらのチェスの駒を生成することができます。これは生成AIの興味深い使い方だと思います。なぜなら、Googleはご存知の通り、NotebookALMを作成した企業で、生成AIを使用してさまざまな方法でラップする取り組みを本当に強化しているからです。
私にとって、これは本当にクールなものだと思いました。これから、レースカーにインスパイアされたチェスの駒など、億という異なる方法があると思います。でも、Google Labsは最も興味深いAI製品を持っていると思います。これは、視聴者の皆さんに常にお勧めするものになるでしょう。なぜなら、Google Labsにいれば、多くの人々より先にNotebookLMにアクセスできたはずだからです。今後の展開を考えると、これは本当に興味深いことです。
さて、今週最大の発表の1つに移りましょう。信じられないくらい大きな発表で、まだ取り上げていなかったことが信じられませんが、それはAnthropicがMCPをリリースしたという事実です。これはClaudeにサーバーを実行させる能力を与えるフレームワークで、事実上、ClaudeアププリをAPIに変換し、彼らが皆さんに気に入ってもらえると考えるサーバーを作成したのです。
つまり、Claudeはローカルでファイルやフォルダを読み取り、作成、編集できるようになったのです。これは本当にすごいことです。ここで見ていただけるように、ライブラリやストラクチャーを作成でき、それをすべてローカルで行うことができます。これにより、ユーザーがこれらのモデルで何ができるかという点で、使用可能性の領域が大きく広がることになります。
私は、これらのモデルで何ができるのかを最大限に活用したいと考えているため、このスペースにゆっくりと深く入り込んでいます。そして、私が知っていることの1つは、これらの機能が段階的にリリースされるたびに、ほとんどの人々が現在気付いていない多くの使用事例が生まれるということです。
この例では、誰かがこのデモで何かを作成しているのが分かります。そして、これらのファイルをすべてローカルで作成できるのが分かります。実行しているのが見えます。これは、ユーザーがFlaskアプリケーションをローカルで作成した場所です。これは本当にすごいことでした。ユーザーがこれを実行できるのが分かります。そして、ペイントアプリケーションをローカルで作成したのが分かります。これは絶対に信じられないことです。
これは、ソフトウェア開発の面で物事をはるかに簡単にしています。なぜなら、ユーザーと話し、一歩一歩導き、やりたいことのすべての領域をナビゲートできるClaudeがいれば、これは多くの可能性を開くからです。これは文字通り、多くの人々の助けになるでしょう。なぜなら、私が何かをローカルで行う方法についてチュートリアルを作成していた時、多くの人々が混乱していたからです。
確かに、一部の人々にとっては少し奇妙かもしれません。一部の人々にとっては簡単で、一部の人々にとっては難しいのは分かっています。しかし、これは私が間違いなくチュートリアルを作成するものになるでしょう。そうすれば、個人の皆さんがこれを最大限に活用できます。これは本当に本当に本当に効果的なものになるでしょう。そして、間違いなく皆さんが探求すべきものですが、3、4日後には、初心者向けに完全に網羅したチュートリアルをリリースする予定です。そうすれば、皆さんがこれから最大限の恩恵を受けられます。
そして、実際にLord Knight of Wouthが貴族院で人工超知能について話をし、基本的にこう述べました。この後、人工超知能について手短に話をしたいと思います。なぜなら、私が重要だと思うTwitterでの議論が進行中だからです。「AIは世界のリーダー、AIの科学者、そして主要なAI企業のCEOたち自身が認識しているように、人類に絶滅のリスクをもたらす可能性があります。AIシステムの能力は急速に成長しており、人間の知的能力を超えた超知能AIシステムは、現存するすべてのAIシステムよりもはるかに大きなリスクをもたらすでしょう」
ここで少し脚本を離れて、このAI安全性の問題について手短に議論したいと思います。これは論争を引き起こすためではなく、人工超知能に関して人々の考え方がどこにあるのかを本当に理解したいと思います。そして、より広いコミュニティがAI安全性についてどう考えているのか知りたいと思います。
基本的に、Chubbyはこうツイートしました。「Jeffrey Hintonが私たちに言うことの正反対を常にすべきだと思うようになった。彼の仕事に対して多大な敬意を持っているのが残念だ」そして、もちろんDavid Jairは「彼は役立つ馬鹿だ」などと言い、人々は彼が規制の取り込みに焦点を当てていると言っています。
Jeffrey Hintonを知らない人のために説明すると、彼は基本的にAIの生みの親で、AI分野で尊敬される個人です。この人物は最近、ニューラルネットワークに関する研究でノーベル賞を受賞したと思います。そのようなものでしたが、重要なのは、大規模モデルのオープンソース化は「ウォルマートで核兵器を買えるようなもの」だと彼が述べた時、多くの人々が彼は間違っていると主張していることです。
私は本当にこれに同意します。皆さんに質問を投げかけたいと思います。なぜ特定のことができるAIモデルが必要なのでしょうか?例えば、将来のモデルが大規模な害を及ぼす能力を持つとします。例えば、生物兵器などです。なぜ私たちは最初からそれをオープンソース化する必要があるのでしょうか?国として、あるいは社会として、それをオープンソース化することで何を得られるのでしょうか?
私は、大規模なオープンモデルをオープンソース化することについて、1つの議論も見つけることができません。オープンソースのエコシステムがひどいものである必要があるとは言っていません。ただ、この技術が将来どこに向かうのかを理解した時、人工超知能は真実であり、基本的に何でもできる魔法のような存在のようになるだろうと述べるなら、壊滅的な害を引き起こす能力のあるモデルをなぜオープンソース化する必要があるのでしょうか?それだけの質問です。オープンソースのエコシステムを持てないとか、オープンソースで透明性のあるモデルを持つべきではないとは言っていません。ただ、モデルの危険な部分、その部分が悪用されるためにしか使えない場合、なぜオープンソース化する必要があるのでしょうか?これが皆さんへの質問です。
さて、話を戻しますが、私はAIのタイムラインについて話したいと思います。ここでもっと高品質な画像があればよかったのですが、皆さんにこれをお見せしたいと思います。なぜなら、本当に驚くべきことが起こったからです。何が起こったかというと、ここで見ていただけるように、Sam AltmanはAGIを2025年、Elon Muskは2026年、Dario Amadeは2026年、Ray Kurzweilは2029年、Jeffrey Hintonは2029年、そしてDemis Hassabisは2030年としています。
これは重要です。なぜなら、これらの人々はAI分野を形作る重要な人物だからです。これらの個人はより多くの情報を持っていると主張できます。前述のように、画像の品質が悪くて申し訳ありませんが、ここに含まれていない人物が1人います。私が言及しているのはYan LeCunです。Yan LeCunについて話をする理由は、彼が注目すべきAI懐疑論者だからです。そして、彼は現在のLLMなどの、いわゆる現在のパラダイムに非常に懐疑的です。彼は基本的に、誰もが間違ったパラダイムで走っていると言っています。
最近、おそらくブレークスルーがあったのかもしれません。なぜなら、この人物が実際にタイムラインを変更したからです。彼はタイムラインに関する当初の信念を実際に変更しました。これを見てください。これはクレイジーで、信じられないことです。なぜなら、現在のパラダイムに関する最も著名なAI懐疑論者の1人であるYan LeCunのような個人が、そのタイムラインが今やSam Altmanや他の業界リーダーたちと基本的に同じだと述べていることは、私たちが考えているよりもはるかに早く高度なAIを確実に手に入れるということを意味するからです。
「私たちがこの計画で成功した場合、これは次の5年から10年以内に成功するかもしれません。5年から10年で、時間とともにシステムを構築して人間と同じくらい知的になるようにできるシステムを持つことになるでしょう。おそらく10年以内に人間レベルの知能に到達するかもしれません。これは楽観的かもしれません。5年から10年というのは、すべてがうまくいった場合、私たちが立てているすべての計画が成功し、予期せぬ障害に遭遇しないとした場合でしょう。しかし、それはほぼ確実に起こらないでしょう」
「あなたはそれが好きではないでしょう?つまり、AGIと人間レベルの知能は遠い将来のことか、あるいはありそうもないと思っているのですか?」
「いいえ、そんなに遠くないと思います。そして、それがどれくらい遠いかについての私の意見は、Sam AltmanやDeisから聞くものとそれほど違いはありません。10年以内に可能性は十分にありますが、来年には起こりませんし、2年以内にも起こりません。もっと時間がかかるでしょう。そして、LLMの能力を外挿して、より大きなコンピュータでより多くのデータで訓練するだけで、人間レベルの知能が現れると言うべきではありません。そのようには機能しません。新しいアーキテクチャー、実世界から学習し、階層的に計画できるJAASシステムが必要になるでしょう」
そう、このクリップは本当に衝撃的なものでした。なぜなら、Yan LeCunが最終的にAIに関する予測、そのタイムラインについて話すのを見るのは興味深かったからです。また、ALTTSも手に入れました。これは実験的なテキスト音声モデルで、純粋な言語モデリングアプローチを使用して、基盤モデル自体を変更することなく音声を生成します。
「時々、すべてが変化する速さについて考えます。ある日はフロッピーディスクを使っていて、次の日にはすべてがクラウドにあるなんて、すごいですよね。私たちはこのすべてのイノベーションにどうやってついていけばいいのでしょうか。あなたの最新プロジェクトのインスピレーションは何だったのですか?これだと思った特定の瞬間があったのですか?それとも、時間とともに自然に出来上がってきたのですか?」
そう、オープンソース空間が何をしているのかを見るのは本当に興味深いですし、ローカルで実行できるこのような種類のものは、外部プロバイダーに依存しなくても済むという点でスペースを変えることになるでしょう。
正直に言うと、本当に優れたモデルをローカルで実行できるようになるこのようなことがスペースで起こり続けていることについて、私はいつになれば文字通りすべてをコンピュータで実行できるほど良いモデルになるのか、本当に疑問に思っています。最近、Llama 3や、よりコンパクトになりよりスマートになる小規模モデルなどを見てきましたが、ChatGPTやそのようなものの、完全にオフラインで、いつでも絶対に使用できるデフォルトバージョンを持つことになるポイントはいつになるのでしょうか?
もちろん、それぞれに長所と短所があると思います。インターネットを検索したり、ファイルをアップロードしたり、サーバーにあるものを使用したりできるものは引き続きあると思います。しかし、これらのモデルがデバイス上で本当に効果的になるほど十分に良くなれば、単純にダウンロードして完全にオフラインで使用できるような、このような完全なシステムを持つことになるだろうと思います。
実際、Rolf von Reinは、AIシステムにおける意識のグローバルワークスペース理論の実装を構築しており、機械は5年以内に意識を持つ可能性があり、来年にも起こり得ると述べています。これは非常に興味深いです。なぜなら、最近私が見た企業があり、その企業の全体的な焦点は機械に意識を持たせることに当てられているからです。これは完全にクレイジーです。なぜなら、多くの人々が「Claudeを目覚めさせよう」などと言って取り組んでいるからです。だから、これらのモデルがますます複雑になっていく中で、AI意識は今後5年間で最大のものの1つになると思います。
「5年後には、些細でない状況でグローバルワークスペース理論の完全な実装を持つことを期待しています。つまり、ここで見ているものとまったく同じようなものではありません。おそらく5年後には、この特定の理論と、私たちが実装した特定の方法が創発的な特性を生み出し、おそらく意識を生み出すかどうかを評価できるでしょう。ただし、私たちは実際にそれを設計しようとしているわけではありません。それが起こる可能性があることは認識しています。そのため、このプロジェクトについては5年というタイムスケールを示すことができます。
より一般的に言えば、AIシステムにおける意識の出現の可能性にタイムスケールを設定したい場合、この範囲はこれよりもはるかに広いと思います。来年やカップルイヤーでGPT-5の次のバージョンで起こる可能性は十分にあります。私は冗談を言っているわけではありません。そこには本当の可能性があると思います。一部の人々は現在のバージョンがすでにある程度意識を持っていると考えています。また、20年以上かかる可能性もあります。なぜなら、私たちの意識に関する理論がすべて間違っていて、次の世紀までに新しいアイデアが必要になる可能性もあるからです」
「経済が現在のように約15年で倍になるペースから、毎月あるいはそれ以上の速さで倍になるペースに変化する5年間が、次の世紀のどこかで訪れる可能性があります。それは起こり得ることとして考えられています。そのような変化が起こる可能性があると思いますが、それは世界規模の変化となるでしょう。つまり、世界経済全体がおよそ毎月倍になり始めるということです。
これがシンガュラリティーとおっしゃる意味なら、それはクレイジーではないと言えます。これは、誰かが地下室で週末に突然強力になって世界を支配するというまったく異なる種類のシンガュラリティーシナリオとは違います。そのようなシンガュラリティーシナリオは、私にはあまり説得力がありません。しかし、次の世紀のどこかで、経済がおよそ毎月倍になるようなスピードに移行する転換点を迎えることは十分にあり得ると思います。そして、AIはそのような転換を引き起こす可能性が非常に高いものです。
その転換は、おそらくほとんどの人々が仕事を失うことと共に起こるでしょう。そして、私たちはそれに備えるべきです。これは、何世紀にもわたって機械が改良されることで人々が最も一貫して話してきたリスクの1つです。私たちはそれに備えることができます。これは単純な保険の問題で、ほとんどの保険よりも単純です。
ほとんどの保険、例えば火災に対して家を保険にかけたい場合、彼らは「引受」と呼ばれるものを行う必要があります。彼らは家に来て、他の人の家と比べてあなたの家が火災に遭うリスクを推測する必要があります。そうしないと、そのリスクをチェックしないと、彼らは大きなリスクを負うことになります。しかし、ここでは世界規模で共通して起こるイベントを見ているのです」
「私はトリガーを設定するでしょう。例えば、労働力参加率、つまり働く成人の割合が、例えば10年間で60%以上から20%未満に低下した場合、それはロボットが短期間でほとんどの仕事を奪ったという兆候、シグネチャーとなるでしょう。それがトリガーイベントとなり、基本的にそのイベントで支払われる資産、つまり基本的に賭けを持つことになるでしょう」
これは私が見た中で最も興味深いものの1つです。これはRobin Hansenが基本的に、次の世紀のどこかでAIが経済を非常に急速に加速させ、ほとんどの人間が仕事を失い、そのシナリオに対して保険をかけるべきだと言っているのです。
したがって、もし将来どのような事業が存在するかを考えている新進の起業家であれば、それが構築したい種類の事業かもしれません。これは本当にスマートだと思います。なぜなら、基本的にAIがずっとスマートになるという事実に賭けているからです。これはかなり確実な賭けです。
このAIが多くの人々の仕事を奪うということは新しいニュースではありません。これは、チャンネルで長い間話してきたことです。そして、これは理にかなっていると思います。最近、異なるツイートが多数あり、それらは技術がどれだけクレイジーになっているかを示しています。つまり、それぞれの分野でこの技術を使用している個人が、AIが特定の閾値を超えるのを見てきたということです。
例えば、ここでEthan Mullockが言っているのが見えます。「進歩が続けば、AIのフロンティアを理解する能力は私たちのほとんどから滑り落ちるでしょう。例えば、私は十分に優れたミュージシャンでも批評的なリスナーでもないため、OVV4が私には本当に良く聞こえるかどうか分かりません。専門家に頼る必要があります」
基本的に、これらのシステムの在り方として、私はその分野の専門家ではないので、平均的な人として、これが特定のレベルの閾値を超えたかどうかは分からないし、システムがより良くなるにつれて、専門家が見ていない限り、それらがどれだけ良いのか分からなくなるということを言っています。
興味深いことに、B Campという人物から反応がありました。「プロフェッショナルとして、1億回以上のストリーム再生、ゴールドレコード、バークリー音楽大学での10年間の作曲指導の経験があります。音楽的に見て、これは私の生徒の80%よりも優れていますが、最高の生徒たちはまだずっと上を行っています。業界のベストも勝っています。そして、広告やライブラリミュージックのようなサービス音楽には十分な準備ができています」
ここで、この技術がどこに向かっているかという点で、あらゆる面でゲームを変えていることが分かります。そして、現在でもそれほど優れているのなら、10年後にはどうなっているのか想像することしかできません。
また、ここで誰かが投稿したものを見ることができます。これはかなりの注目を集め、50万回以上の視聴、200のいいね、3,000のいいね、2,000以上のブックマークを獲得しました。彼はこう言いました。「約20時間のカスタマイズ作業を行ったClaude 3.5 Sonnetは、私が5年間で働いてきたすべてのジュニアおよびほとんどのミッドレベルのメディアバイヤー、ストラテジストよりも優れています。そして、シニアの人々の80%よりも優れているだろうと思います。AIは広告の世界にやってくるのではありません。すでにここにいるのです」
これは本当に興味深いコメントだと思います。なぜなら、私は特定のモデルを使用してきて、時間とともに、特定のモデルが新しいデータで訓練されると継続的に改良されていくのを見てきたからです。これは、特定のタスクに対して私が見てきたことです。
時々、ウェブサイトに情報を書いていたり、動画の説明を入力していたり、一般的なオンラインビジネスの作業をしている時、Claudeが本当に本当に効果的であることに驚かされることがあります。多くのプロンプトを必要とせず、本当に本当に効果的な応答を出力し、誰かを雇う必要がないほどです。これは徐々に徐々に起こっていることです。
多くの場合、私たちが持っているのは定性的なベンチマークです。つまり、一連の設定された問題で試験できる数学のベンチマークのようなものではありません。この種のものが解決する問題の種類は、いわば主観的な性質のものであるため、これが起こった時、人々を驚かせることはありません。時間とともに徐々に徐々に良くなり、人々は実際の人間への依存を減らしていくということです。
そして、ここでOpenAIで働く人物から興味深い予測が得られました。Jason Weiからの予測です。彼はこう言います。「予測として、来年以内に、AIの焦点は一般ユーザーの採用から、科学と工学を加速する能力へと急激に移行するでしょう。過去2年間は、ChatGPTやその他のすべてのことで、一般の人々への一般的な採用とユーザーベースに関するものでした。これは非常に自然です。なぜなら、ユーザーの成長はどんなビジネスモデルにとっても重要な部分だからです。
しかし、この時点で、地球上の平均的な人からのほとんどのクエリに対して、LLMは広く利用可能であり、多くのLLMがそれに上手く答えられると言えるでしょう」彼は基本的に、GPT-4やLlama、Mistalなど、すべてのモデルを取り上げて平均的な人に与えた場合、おそらく違いが分からないだろうと言っています。
しかし、彼は「今後5年間で、焦点は、技術分野におけるイノベーションの原動力であり、あらゆる分野における革新の最前線であるエンジニアリングと科学研究を加速する能力に移るでしょう。そして、定義上、多くのオープンな質問があり、より良いAIが違いを生み出すための大きな余地があります。そして、進歩は複合的であり、AIがAI研究自体を加速している強いポジティブフィードバックループもあるため、賭け金は非常に高くなるでしょう」
彼は基本的に、「これを言い換えると、平均的なユーザークエリを改善する余地は限られていますが、技術的な進歩を加速させる1%のクエリや、モデルが十分にスマートではないために現在人々が尋ねようとしないクエリを改善する余地は非常に大きいということです」と述べています。
「AIの研究は、大きな余地と科学的イノベーションがある分野で改善される傾向があり、実質的な上昇の可能性があります」と基本的に述べています。つまり、平均的な人に対してこれらのモデルができることはある程度最大限に達しているため、平均的な人がより多くの恩恵を受けられる分野でモデルの強さを増すことは、業界の主な焦点にはならないだろうということです。
彼らが焦点を当てるのは、これらのモデルがとても賢くなって、おそらくエンジニアリングの問題を解決したり、科学研究を進展させたりできるような能力です。それが実際に違いを生み出し、実際にその種の研究を加速させ始めるところです。なぜなら、その種のアプリケーションにはまだ改善の余地が非常に多く、その市場を攻略できれば、大きな市場シェアを獲得でき、科学的発見とエンジニアリングを実際に加速できるからです。
これは彼らが本当に向かっている方向です。そして、これは理にかなっています。なぜなら、現在のすべてのモデルは、誰もが望むことを基本的にできるほど十分に優れているからです。リアルな方法で会話できる音声ボットが欲しい場合、OpenAIにはすでに高度な音声モードがあります。チャットボットが欲しい場合、チャットボットがあります。ズームコールであなたを見ることができるバーチャルな人物が欲しい場合、その技術はあります。
それらの機能はすべて来年には完全に最大限に達するでしょう。そのため、次の本当に興味深い分野は、もちろん科学的イノベーションのための分野です。
Elon Muskも本当に興味深いことを言いました。彼は「Optimusは非常に洗練されたロボットです。コストを2万ドルまで下げるのは非常に困難で、全く簡単ではありませんが、最終的には実現するでしょう。そのためには、年間100万台以上のボットの生産量が必要です。価格は需要によって決まりますが、最終的にはOptimus Teslaボットの価格は2万ドルになるでしょう」と述べました。
これらのロボットの価格がどれだけ下がるのか、本当に本当に興味深いと思います。最近、私のチャンネルでTeslaボットが本当に信じられないことをした動画を見たかどうか分かりませんが、新しい手で空中のテニスボールを2回キャッチする能力に、私は本当に驚き、感動しました。
だから今、その種の技術が2万ドル以下になるのかと思います。Elon Muskは「車よりもアクチュエーターが多いので、車よりもずっと安くなる可能性がある」と言っていますが、実際にどのような価格になるのか、本当に興味があります。
そして、もちろんNvidiaが世界で最も柔軟な音響マシンを作り出しました。テキストと音声の入力を使用して、音楽、声、音のあらゆる組み合わせを生成できます。これはNvidiaからのもので、彼らは再び完全にやってのけました。Fugatoは、Nvidiaの最新の生成AI革新です。
この新しいモデルは、テキストと音声の入力から音、音声、音楽を作成することができます。Fugatoを導入して、予期せぬ音響効果を作り出すことができます。そこでは、なじみのある音が驚くような新しい性質を帯び、新しい体験を呼び起こしたり、映画や音声制作のための没入感のある変化する音響風景を演出したりできます。
音声クリップから音声要素を抽出するようFugatoに指示すること、例えば音楽作品から音声トラックを分離することは、同じように簡単です。Fugatoはまた、新しい音声サンプルを生成することもできます。「ドアのそばで子供たちが話している」。そして、異なる話し方が欲しい場合、Fugatoはそれもできます。「ドアのそばで子供たちが話している」「ドアのそばで子供たちが話している」。
Fugatoはまた、ミュージシャンが新しい楽器を加えたり、彼らが書いたメロディのスタイルを完全に変更したりして、既存の音声を実験することもできます。また、このような珍しい楽器の組み合わせを思いつくこともできますし、クリエイティブなコンセプトを実現する音を生み出して、全く新しい領域を探求することもできます。Fugatoは画期的な基盤モデルで、音響の超能力を与え、創造性と制作の新しい可能性を開きます。
そして、本当にクールだったのは、Luma Dream Machineのアップデートバージョンを手に入れたことです。これはバージョン1.5で、本当に本当に効果的な新しいモデルです。彼らは実際に、彼らの素晴らしいツールで何でも作成できることを示す、本当に素晴らしい広告を制作しました。
これは、再び創造性を高めるものだと思います。私は多くの異なる動画モデルを使用してきましたが、Luma Labs AIには何かがあります。彼らのユーザーインターフェースは、これまで動画編集をしたことがない人でも、本当に本当に使いやすいのです。
だから、これは初心者の誰にでもお勧めするツールです。もちろん、上級者であれば、Runwayのようなツールを使用できますが、本当に初心者で、動画の世界で遊んでみたい人には、Luma Labsは速く、簡単で、基本的にすべてのカメラアングルを提供し、本当に本当に効果的です。だから、Dream Machineを使用しようとしているなら、これはお勧めのツールです。
他のAIニュースに関して、これはJonathan Rossからのものです。彼はGrockにいる人物で、Grockを知らない人のために説明すると、これはLLMに信じられないほどの推論能力を持たせようとしている企業です。彼の目標は今、年末までにGrockを1秒あたり2,500万トークンにすることです。
私はそれが可能かどうかさえ分かりません。彼らがAIでできることを疑う人間になりたくはありませんが、これは信じられない信じられないことです。本当にこれが起こるかどうか分かりません。なぜなら、これはただ信じられない偉業だからです。彼らは今でも信じられないスピードにいるのです。
もし実際に、彼らが何ができるかを見てみれば、この素早い音声アクティベーション要求でGrockで何ができるかを、このクイックデモで皆さんにお見せしようと思います。これが、LLMの未来がどのようなものになるかです。私は今、物事が遅いとは思いませんが、将来物事がどれだけ速くなるかを本当に理解していません。だからこそ、このようなハードウェアがただゲームを変えることになるのです。
「今年のスーパーコンピュートでアトランタに行きます。余分に1日滞在する予定です。行程を考えてもらえますか?それをテーブルにまとめてもらえますか?時間の列を追加してもらえますか?終了時間を削除して、時間の後に時間の長さを移動してもらえますか?時間の長さを分に変えて、停止場所を一番左に移動してもらえますか?素晴らしいですね。でも、考えを変えました。ニューヨークに行って、そしてアトランタに戻りましょう」
そう、私がこれを絶対に信じられないと思う理由は、私たちは多くのトークンを必要とする、これらのモデルが考える時間に向かってこのパラダイムを移動しているという状況があり、このGrockハードウェアで、文字通りすべてのトークンを本当に本当に速く処理できるようになるからです。
これは基本的に、全体的により効率的なシステムを手に入れることを意味します。彼が言っているのが分かります。「2,500万という数字の理由は、もし私たちが1秒あたり2,500万トークンを処理できれば、今年初めにハイパースケーラーが持っていたのと同じくらいの計算能力を持つことになります。そこからは単に拡大していきます。だから、来年初めまでには、私たちは我々の分野で最も重要なプレーヤーの1つになっているはずです。そして来年には、世界の生成AI計算の半分以上を提供することになるでしょう」これは信じられないことです。
なぜなら、もちろん、何かがそれほど速ければ、それは絶対にゲームチェンジャーになるからです。