見出し画像

ASIは想像以上に近い! OpenAIのヒューマノイドロボット、Metaのデジタルアバター

8,481 文字

GoogleのAIスタジオのリードプロダクトマネージャーであるLogan Kilpatrickは、「スーパーインテリジェンスは月を追うごとにますます現実味を帯びてきている。これがIliaが見たものだ」とツイートしています。彼はその理由を説明し、AGI(人工汎用知能)についても言及しています。
次に、OpenAIは最近、独自のヒューマノイドロボットの製造を検討しています。彼らはすでに、OpenAIの最新モデルであるGPT-4を搭載したFigure社、そして1X Robotics社、汎用AIファームのPhysical Intelligence社に大規模な投資を行っています。大手AI企業がヒューマノイドロボティクスの分野に参入する動きが活発化しています。
最後に、Metaは最近、ソーシャルメディアの未来像を発表しました。同社は、今後数年間でAIキャラクターが自社のソーシャルネットワークの一般的な一部となると見ています。このビデオでは、この発表に対する人々の反応と、デッドインターネット理論が私たちが思っていた以上に現実に近づいているかもしれない理由について探っていきます。
早速本題に入りましょう。GoogleのリードプロダクトマネージャーであるLogan Kilpatrickからの衝撃的なツイートがあります。彼は「ASIへの直接的な道筋が月を追うごとにますます現実味を帯びてきている。これがIliaが見たものだ」と述べています。さらに、「Iliaは人工スーパーインテリジェンスへの直接的な道筋を目指してSSIを設立しました。中間製品も中間モデルのリリースもありません。私を含む多くの人々は、モデルやSL製品のフライホイールを回転させることで実際の防壁を構築できるため、これは機能しそうにないと考えていました」と続けています。
ここで彼が言及しているのは、IliaのSSIという新しいAIスタートアップについてです。SSIはsafe super intelligence(安全なスーパーインテリジェンス)の略です。Iliaは2024年5月にOpenAIのチーフAIサイエンティストの職を退いた後、このスタートアップを立ち上げ、安全なスーパーインテリジェンスの創造が唯一の目標であることを明確にしました。彼らの公式ウェブサイトは文字通り1ページだけで、「私たちは世界初の直接的なSSIラボを立ち上げました。一つの目標と一つの製品、それは安全なスーパーインテリジェンスです」と記されています。
Kilpatrickのツイートに戻ると、「しかし、Iliaが早期の兆候を見たであろうテストタイムコンピュートのスケーリングの成功は、このような直接的な道筋で単にスケールアップを続けることが実際に機能するかもしれないという良い指標です」と述べています。
Ilia Sutskever(イリヤ・サツケヴァー)の逸話をご存じない方のために説明すると、彼がOpenAIを去った際、閉じられた扉の向こうで何かを見たことで退社を決意したという噂が多く流れました。これが「イリヤは何を見たのか」というミームの由来です。当時のAIコミュニティの間では、イリヤはQAR(OpenAIの推論・思考モデルの初期コードネーム)を見たのではないかというのが共通認識でした。QARは最初は単なる噂でしたが、その後Strawberryとなり、さらにo1となりました。
これを初めて聞く方にとっては少し混乱するかもしれませんが、イリヤが見たのは恐らくOpenAIのo1モデルシリーズの初期段階だったということです。これが彼に、安全なスーパーインテリジェンスの創造を目標とする独自のAIスタートアップを立ち上げる動機を与えました。
OpenAIのo1モデルシリーズは、モデルに考える時間を与えれば与えるほど性能が向上することを証明する、テストタイムコンピュートという新しいスケーリングパラダイムに基づいています。これが、少なくともイリヤ・サツケヴァーが信じているように、私たちをスーパーインテリジェンスへと導くかもしれないものなのです。
Kilpatrickは続けて、「私たちは依然としてAGIを手に入れることができますが、4年前のコンセンサスとは異なり、それは歴史上の変曲点となる瞬間というよりも、多くの反復と短期間での市場における類似のオプションを伴う製品リリースのように見えるでしょう。これは実は人類にとって最良の結果である可能性が高く、個人的にもこれを喜ばしく思います」と述べています。
これは非常に重要な指摘です。なぜなら、人々はAGIが達成されると何か巨大な出来事が起こり、私たちの生活が完全に変わると考えていますが、実際にはそれは単なる別の製品リリースのように感じられる可能性が高いからです。
iPhoneとそのエコシステム全体を例に考えてみましょう。それは実際には、複数の技術的ブレークスルーを組み合わせたものに過ぎません。数十年前に発明されたタッチスクリーンインターフェース、同じく数十年前に発明されたデジタル音楽再生能力、iPhoneを動かすオペレーティングシステムなど、多くの要素があります。問題は、これらのテクノロジーのほとんどがまだ初期段階にあり、非常に高価であるか、単に非効率的すぎたことでした。
通信の自動化、携帯電話基地局やWiFiインフラへの大規模な投資により、iPhoneのようなデバイスがほぼすべての人にとって実際に有用で実現可能なものとなりました。同様に、AGI(人工汎用知能)を達成しても - 一部の人々は既に達成していると主張するかもしれませんが - すべての人間が使用できるようにするためのインフラがまだ不足しているでしょう。最初は非常に高価で、あまり有用ではなく、また非常に非効率的でしょう。
OpenAIのo3のARC AGIチャレンジのスコアを見てください。確かに87.5%というスコアは、これまで見たことのないような高得点です。しかし、OpenAIが宣伝したがらないのは、それを達成するのに数十万ドルのコストがかかったということです。
AGIが実際に有用で誰もがアクセス可能なものになるためには、膨大な電力が必要になります。そのため、多くのAI企業が原子力エネルギーを探求し、現実世界で有用なものとするためにヒューマノイドロボットのような何らかの実体化の形を検討し、もちろんエージェント的能力や可能性のある自己認識も必要になってきます。これらは現在取り組まれている課題であり、まだ発見されていない他のパズルのピースもあるかもしれません。
また、このビデオを見ている皆さんは上位1%の存在だということを理解しておく必要があります。大多数の人々は、私たちがAGIやASIにどれほど近づいているかについて全く知りません。実際、彼らはこれらの用語すら知りません。しかし、彼らを責めることはできません。この極めて速いペースで進化する業界についていく時間が単にないのです。
この長い余談から離れて、2025年、特に今年私たちが期待できる短期的な未来について話しましょう。Sam Altmanは、人々がOpenAIに2025年に期待することについてツイートを投稿しました。一般的なテーマとしては、AGIエージェント、はるかに優れた4oのアップグレード、はるかに優れたメモリ、より長いコンテキスト、成人モード、深い研究機能、より優れたSora、そしてよりパーソナライズされた機能が挙げられました。彼はまた、「興味深いことに、私たちが予定している多くの素晴らしいアップデートについては全く、あるいはほとんど言及されませんでした」とも述べています。
これらの一般的なテーマは、OpenAIが今年取り組むであろうものですが、全く言及されなかった多くの素晴らしいアップデートの一つは、ヒューマノイドロボットかもしれません。なぜなら、最近私たちは、OpenAIが独自のヒューマノイドロボットの開発を検討しているという内部情報を得たからです。
報告によると、OpenAIは最近、独自のヒューマノイドロボットの構築を模索しているとのことです。この情報は、それらの会話について直接知識を持つ2人の情報提供者を引用しています。そして先ほど述べたように、彼らはすでにFigure、1X、Physical Intelligenceなど、複数のロボティクス企業に投資を行っています。
さらに報告では、2021年にOpenAIは静かにロボティクス部門を閉鎖した後、そのような野心を放棄したと述べていますが、もちろん過去3年間でハードウェアとそれを動かすAIシステムの両方で多くのブレークスルーがありました。
これは重要な点です。なぜならOpenAIは実際にロボティクス部門を持っていたので、ヒューマノイドロボットへの参入は突飛な話ではないからです。実際、もし資金調達ができれば、非常に理にかなっているでしょう。
OpenAIは最近、営利企業への構造変更を進めることを確認しました。彼らは次のように述べています:「OpenAIの取締役会は、人工汎用知能が全人類に利益をもたらすことを確実にするというミッションを最もよく支援するために、企業構造を評価しています。三つの目的があります:一つ目は、ミッションの長期的な成功のために最適な非営利・営利構造を選択すること、二つ目は非営利を持続可能にすること、三つ目は各部門がその役割を果たせるように整備することです。」
これは非常に企業的な言い方ですが、本質的にはOpenAIがより多くの資本を調達するために営利企業に再構築されるということです。Elon Muskはすでにこれについて何度も訴訟を起こしており、今やAIの父と呼ばれるJeffrey Hintonも彼を支持し、訴訟を支援しています。
あなたがOpenAIとMusk、Jeffrey Hintonのどちらの側に立つにせよ、重要なのはOpenAIが新しい資金調達の扉を開こうとしているということです。潜在的には誰でも会社に投資できるIPOにまで至る可能性があります。これだけの資本があれば、他の多くのAI企業が始めているように、ヒューマノイドロボットへの参入も驚くべきことではないでしょう。
最近、すでにロボティクスチームを持つGoogle DeepMindは、高度なAI搭載ヒューマノイドロボットを作るためにAb-tronicと提携しました。これは今後も注目していくべきパートナーシップです。
したがって、ヒューマノイドロボットは2025年のもう一つの大きな議論のトピックとなる可能性があります。NVIDIAのシニアリサーチサイエンティストであるJim Fanは、ヒューマノイドについて非常に強気な見方をしています。
彼は次のように述べています:「私たちが高度なロボットのない最後の世代であることを知り、大きな安心感を覚えます。私たちの子供たちはロボットネイティブとして育ちます。ヒューマノイドがミシュランの料理を作り、ロボットのテディベアが寝物語を語り、FSDが彼らを学校に送り届けるでしょう。私たちはロボット移民の世代として、遍在する物理的AIの新しい世界へ向かっています。それは、私たちの両親が6インチのタッチスクリーンで生活を再編成することを学ぶデジタル移民であるのと同じように。それはSFテクノロジーを発明し、私たち自身を再発明する旅です。動くものすべてが自律的になり、これからの毎年がロボティクスの年となるでしょう。」
これは確かに大胆な主張です。動くものすべてが自律的になるというのは。しかし、私は彼が的確に指摘していると本当に信じています。将来、私たちがデバイスとやり取りする方法は、おそらく他の人間とやり取りする方法とほぼ同じになるでしょう。つまり、会話によってです。私たちはすでに高度な音声モードと会話型AIを持っています。これが実際の世界で物事を成し遂げることができる有能なロボティクスと統合されることを想像してみてください。それは本当にすべてを変えるでしょう。
キッチンに入って単に「ステーキを作って」と言うだけで、突然冷蔵庫が開き、コンロが熱くなり、巨大なロボットアームが自律的に材料を取り出してステーキを調理し始めることを想像してください。これはSFのように聞こえますが、実際にはそれほど遠い未来ではありません。
ロボティクスに関する他のニュースでは、Unryが最新のロボット犬B2Wを公開しました。このロボット犬は、いかに危険な地形でもほぼすべての場所を移動できます。脚部に車輪があり、非常に versatile で高速です。これにより、人間が到達できない場所に素早く到達することができ、特に捜索救助などで有用です。
ご覧の通り、バックフリップやこのような動的な動きも実行できます。このロボットの本当にクールな点は、実際に乗ることができることです。街中や場合によってはオフロードでこれに乗って走り回ることを想像してください。とても楽しそうですね。
ロボティクス業界でもう一つ皆さんにお見せしたいニュースがあります。トヨタのバスケットボールプレイロボットQ6が、ヒューマノイドロボットによる最長シュートのギネス世界記録を樹立し、AIが最高レベルの選手たちと共にバスケットボールをプレイできることを証明しました。
ヒューマノイドロボットがプロのアスリートに取って代わることは決してないと思いますが、ここでは80フィートのフルコートショットを簡単に決めるヒューマノイドロボットがいます。コメント欄で教えてください。バスケットボールでもサッカーでも、あるいは他のスポーツでも、ヒューマノイドロボットだけのリーグを見たいと思いますか?人々は実際にそれを見たいと思うでしょうか?
さて、次にデジタルアバターについて話さなければなりません。この記事によると、Metaはソーシャルネットワーク上でAIキャラクターが人間のアカウントと共存することを構想しているとのことです。
Metaの元クリエイターイノベーションチーム責任者であるBecky Owenは、このAIが溢れる未来について警鐘を鳴らしています。フィナンシャルタイムズへの発言で、悪意のある行為者がAIアカウントを使って虚偽の情報を広める可能性があると警告しています。また、AIキャラクターは実世界の経験、本物の感情、人間のクリエイターと比べた真正性に欠けていることも指摘しています。これにより、プラットフォームが低品質の投稿で溢れかえる可能性があります。
また、MetaはAIで生成されたコンテンツに明確なラベル付けを要求していますが、これを実施するのは簡単ではありません。プラットフォームがサポートしている場合、視聴覚コンテンツにはCCラベルを付けることができますが、AIで生成されたテキストの検出は依然として困難であり、主にユーザー自身がラベル付けを選択するかどうかに依存しています。
これが、まさに問題の核心です。彼ら自身が述べているように、AIで生成されたテキストの検出は依然として困難であり、AIで生成された画像や動画の検出も同様です。この時点で、もしAIで生成されたものかどうかのラベル付けをユーザーの判断に委ねるなら、私たちは厳しい現実に直面することになります。なぜなら、AIで生成されたコンテンツはますますリアルになっていくからです。
Googleの最先端モデルであるVo2で生成されたこれらの最新の画像を見てください。これらは文字通り現実と区別がつきません。Metaがすでに使用しているデジタルAIアバターに話を戻すと、彼らの投稿へのコメントを見れば分かるように、誰もこれを望んでいません。
Googleでデッドインターネット理論を検索すると、AIの概要には「デッドインターネット理論は、インターネットが現在、主に自動生成されたコンテンツとボットの活動で構成されているという陰謀論である。この理論は、これらのボットがアルゴリズムと消費者を操作し、人々をコントロールするために意図的に作られたと示唆している」と書かれています。
自動化されたコンテンツを配信する人々や企業の真の動機や意図について議論することはできますが、重要なのは、AIで生成されたコンテンツが現実と区別がつかなくなるにつれて、私たちが心配しなければならないのは、TwitterやRedditでタイプするボットアカウントだけではないということです。今や、私たちが知らないうちに完全にAIで生成される可能性がある画像、動画、そしてインフルエンサーまでもが問題となっています。
例えば、私が本物の人間であることをどうやって本当に知ることができるでしょうか?確かに、私の声は現時点で最高のAI音声よりも人間らしく聞こえるかもしれませんし、私のスクリプトもChat GPTで完全に生成されたようには聞こえないかもしれません。しかし、私の顔を実際に見ることができなければ、私が本物の人間であることを100%確信することはできません。
そしてそれでさえも、たとえ私が話している時の顔を見ることができたとしても、Vo2で生成されたこれらのクリップの人々がいかにリアルに見えるかを見てください。数年後には、インターネット上のあらゆるコンテンツが、人間が作ったものかAIが生成したものか見分けがつかなくなるでしょう。
ある意味で、インターネットは死んでいる、あるいは少なくともかつてとは大きく異なるものになるでしょう。そして私は、おそらくMetaはこれから起こることを見通していて、その最前線に立とうとしているのだと思います。しかし、これは単に私の状況に対する考えです。皆さんはどう思うか、コメント欄で聞かせてください。
他のニュースでは、Deep Seek AIが最新の最先端オープンソースモデルであるDeep Seek V3を発表しました。このモデルは、ほぼすべてのベンチマークでLlama 3.1、405b、Claude 3.5 Sonnet、GPT-4oを凌駕しています。オープンソースモデルがこれを達成するのは絶対に驚くべきことです。これは中国の企業であることを覚えておいてください。つまり、中国が米国とのAIレースで追いついているだけでなく、オープンソースもクローズドソースAIに追いついているということです。
もちろん、いつも言っているように、ベンチマークは完全な物語を語るわけではありません。モデルを自分で試してみることを強くお勧めします。説明欄に彼らの公式ウェブサイトへのリンクを残しておきますが、このモデルが少なくとも、OpenAIのo1のような推論モデルを除く現在の最先端技術と同等であることは明らかです。
最後にビデオを締めくくるにあたって、医学生や研修医の教育ツールとしてよく使用される難しいケースであるNJM Clinical Pathologic Case Conferences (CPCs)での医療タスクにおけるLLMsの性能を実際の臨床医と比較した興味深い研究についてお話ししたいと思います。
臨床医は約3分の1の確率で正しい診断を下すことができましたが、o1プレビューは75%以上の確率で正しく診断することができました。これは大きな成功率の向上であり、他のどの方法よりも優れた性能を示しています。また、これらのテストは単に正しい診断を見つけることよりも、論理的推論と診断アプローチを重視していることに注意すべきです。
別のグラフでは、研修医、指導医、GPTモデルの見逃してはならない診断の割合を示しています。o1プレビューとGPT-4は時々これらの極めて重要な診断を間違えることがありますが、指導医よりもはるかに正しい診断を下す可能性が高いのです。これは驚くべきことです。これらのモデルは医療タスクに特化して訓練されているわけではないのに、すでに実際の医師を凌駕しているのです。
最後に、管理と診断推論に関して、o1プレビューはGPT-4の支援を受けた医師でさえもはるかに上回っていることがわかります。このペーパーにはo1プレビューの性能のみが含まれていることを覚えておいてください。私たちにはすでにプレビューよりもはるかに優れた完全版のo1モデルがあり、さらにはo3も持っています。AIが医療業界を完全に革新し、変革することは明らかだと思います。
とにかく、今日のAIニュースは以上です。視聴していただき、ありがとうございました。ビデオを楽しんでいただけたなら、ぜひいいねを押してください。そして、いつものように、このような将来のAIニュースを常に把握したい方は、ぜひチャンネル登録ボタンを押してください。

いいなと思ったら応援しよう!