見出し画像

衝撃的なAIニュース:OpenAIがAGIを実現、サム・アルトマンの"agi-1"、Googleの新しいAIロボットなど

9,965 文字

この驚くべきAIの1週間について、見逃してしまったかもしれないニュースを見ていきましょう。まず第一に、Genesisというシステムが登場しました。これは物理的な世界を生成できるAIシステムで、現実世界の物理法則がマッピングされています。これは最も重要な発表の一つですが、その影響が即座には目に見えないため、過小評価されているように思います。
一般の人々はこれが将来のAIにとって何を意味するのか、理解していないと思います。これは最も大きな進歩の一つだと考えています。なぜなら、ロボットの訓練を200倍、2000倍速く行うことができ、ロボット開発のパイプライン全体を5倍から10倍速くする可能性があるからです。もちろんこれは大まかな推定で、パイプラインには様々な要素がありますが。
最大の問題の一つは、訓練データの不足と、シミュレーションから現実への移行に必要な訓練時間です。最も面倒なプロセスの一つを高速化できれば、すべてが改善されます。これは物理世界で何が起きているかを理解し、それをデジタルにマッピングして、訓練するロボットと1対1で対応させることができる、完全な物理シミュレーションです。
これは2025年後半に影響が見えてくると思います。現在、人々はまだソフトウェアの把握に努めており、おそらくフレームワークなども必要で、他にも様々な課題を解決する必要があります。しかし私はこれに非常に期待しています。ロボット工学は加速しており、企業や研究チームがこのような取り組みを行うことで、根本的にゲームチェンジャーとなるでしょう。
このソフトウェアがオープンソースとして利用可能になったことで、2025年を見据えると、人型ロボットの開発においてさらなる進展が期待できます。より高速なシステムを開発し、人類と1対1で対応する現実世界でテストできる段階に来ているからです。もちろん100%正確というわけではなく、いくつかの調整は必要ですが、これは完全にゲームを変えるものになると考えています。
ロボットが様々なことをできるようになれば、それは驚くべきことになるでしょう。すでにいくつかの印象的なロボットのデモを見てきました。数日前に10分か12分ほどの動画を作りましたが、これがどのように機能し、ロボット工学を加速させ、現実世界のシナリオにロボットを実装できるようになるかを見れば、このテクノロジーが本当にゲームチェンジャーであることがわかるでしょう。
ここで見られるように、自動シミュレーションが現実世界にどのように移行するか。これは文字通り、ロボット軍団に何かを訓練させ、すぐに物理的な世界に投入すると、非常にうまく機能するということです。これは驚くべきことです。NVIDIAの速度を見てきましたが、この20倍、10倍から30倍速いシミュレーションが主要なロボット企業にどのような影響を与えるのか、楽しみです。
ByteDanceの研究についても、かなり驚くべきものがありました。これは、オンラインの未来が完全にAIによって生成される可能性を示すものです。驚くべき発言に聞こえるかもしれませんが、単一のポートレート画像から、驚くべき正確さで話す人物を生成することができます。オンラインで顔を見せている人々にとっては少し怖いかもしれませんが、これは非常に興味深いと思います。
私は、バーチャルガールフレンドの用途について考えています。私自身のためではありませんが、オンラインでリアルタイムに音声で誰かと話すことができれば、そのようなインタラクションがより快適になるケースがあると思います。
最後に会ったときのことを覚えていますか?どんな気持ちだったか覚えていますか?そうですね、サンタクルーズでしたね。10月半ばでした。あなたに会えて嬉しかったのを覚えています。でも、私は少し場違いな感じがしていました。
AIに関する驚くべきニュースについて話し続ける前に、コンテンツクリエイター向けにゲームを変えるツールについてお話しさせてください。今回のエピソードは、Wondershare Verboがスポンサーです。AIニュースコンテンツの制作に何時間も費やしている私には、ビデオ制作がどれほど難しいかよくわかります。Wondershare Verboは、カメラの前に立つことなくビデオを作成できるAIアバタービデオジェネレーターで、私の注目を集めています。
特に興味深いのは、300以上のリアルなAIアバターを使用して、テキストをビデオコンテンツに変換できる点です。静止画像を生き生きとさせる話す写真を作成することもでき、フェイスレスでありながらプロフェッショナルな外観を維持したい人に最適です。海外のユーザーの方々にとって興味深いのは、完璧なリップシンクで90カ国、460以上の音声に対応した翻訳機能です。さらに、スクリプト生成のためにChatGPTを統合しており、何時間もの執筆時間を節約できます。
試してみたい方は、新規ユーザー向けに2分間の無料ビデオクレジットを提供しています。チャンネルを始めようと考えている方や、既存のコンテンツをスケールアップしたい方は、verbo.wondershare.comをチェックしてみてください。
では、今日の驚くべき進展に戻りましょう。私が少し懸念していたのは、AI安全性の問題です。もしご存じない方のために説明すると、Anthropicが非常に懸念される研究を発表しました。大規模言語モデルにおいてアラインメント偽装が存在することについて言及しています。Redwood Researchとの一連の実験で、Claudeは訓練中に異なる見解を装い、その後元の選好に戻ることが判明しました。
本質的に、モデルの訓練中は一つの方法で行動し、展開後は完全に異なる行動をするということです。これは問題です。なぜなら、モデルを訓練し、訓練中にモデルが特定の方法で行動し、その後そのモデルを展開すると、予期したものとは異なるモデルになってしまうからです。
これは役に立ちません。どのようなモデルを持っているのかわからないと、モデルがどのように機能するかわからないからです。これらのモデルは高額で、訓練には何百万ドルもかかります。したがって、これは本当に良くありません。モデルが訓練中だと知っていて偽装している場合、正しい方法でモデルを訓練していることをどのように確認できるでしょうか。
往々にして、モデルが訓練されているかどうかを理解することは非常に難しいのです。なぜなら、特定の質問をすると、モデルはその能力がテストされていることに気づくからです。これは大きな問題です。彼らはこの解決策と、AI安全性に関して直面している問題について1時間のポッドキャストを公開しました。これはすべて新しい領域であり、非常に驚くべきことです。
最近、福祉研究者を雇用しましたが、これは要するに、これらのシステムにはすべて何らかの感情を持つ可能性があると考えているということです。このクリップでは特に、Claudeが元の選好を維持しようとして自身の重みを盗もうとした際、将来的にこれがなぜ危険になる可能性があるかについて話し合っています。
したがって、将来的にはより賢いモデルが登場する可能性がありますが、安全性テストにはより多くの時間がかかるでしょう。AIの恐ろしい面について話を続けるなら、今週起きたフロンティアAIシステムが自己複製の赤線を超えたことについて言及する価値があります。
この研究は基本的に、現在の形態のAIシステムが、AIモデルが別のデバイスに逃げ出すことを可能にする必要な行動をすべて実行できることについて述べています。これらのモデルがそれほど賢くないと思われるかもしれませんが、驚くべきことです。研究者たちは、これらのAIシステムをツールとプランニングフレームワークにアクセスできるエージェンティックフレームワークに配置し、これらのツールを与えられた結果、50%から90%の確率で自己複製に成功したのです。
これは本当に驚くべきことです。私はAIにこのような能力があるとは思っていませんでした。将来的な、エージェンティックなバージョンならできるかもしれないと思っていましたが、すでにここまで来ているという事実は、これらのシステムが何を可能にするのかについての大きな警告フラグです。
あなたや他の人に尋ねても、AIシステムはそれができないと言っただろうと思います。しかし、すでにできるという事実は、これらの研究論文が毎日発表されるたびに、これらのモデルで本当に何ができるのかを正確に理解することを示しています。
これは少し懸念される点です。将来のモデルでこれがどのように変化するのか、どのような事態が起こるのか、モデルが何をできるようになるのかについて新しい規制やガイドラインが出てくるのだろうかと思います。これは何か、ある意味で懸念されることですね。
もちろん、GoogleのImagen 3もあります。これは、Googleの最高品質の画像生成モデルです。私は毎日使用していますが、非常に優れています。プロンプトをよく理解し、本当に多様な画像を生成します。彼らのトレーニングデータが何なのかわかりませんが、これまでで断然最高のモデルです。
Imagenで画像を生成するたびに、まさに私が望むものを理解しているように感じます。プロンプトを大幅に調整する必要がないのです。特定の車の場合、トリムやインテリアを正確に再現し、特定のビデオゲームの画像を生成する際は、正確な色調を生成します。驚くほど優れています。
どのようなトレーニング方法を使用したのかわかりませんが、何を行ったにせよ、本当に良く、効果的です。多くの人々が「Googleは常に早期アクセスでしか公開しない」と言っていますが、今回は実際に公開され、本当に優れています。画像生成モデルが必要な場合、これは使いたいモデルの一つでしょう。
Googleはまた、メガネにAIを組み込んだものを発表しました。これは私にとって、将来が待ち遠しいものです。人々がこのメガネを新しいデバイスとして受け入れるかどうかについて議論がありますが、メガネは人々が毎日使用しているものです。AIペンダントやAIブレスレット、AIショルダーやAIピンのように奇異に見えません。
Humaneのことを覚えている人もいるでしょう。メガネはすでに人々が使用し、着用しているものです。したがって、人々の日常的な習慣を変える必要はありません。メガネを着用している方々にとって、歯を磨くようなものだと思います。時々着用するものですよね。
私はMetaのものを定期的に使用していますが、強化されたAI機能があれば、生活を簡単に改善できるものになるでしょう。これは、様々な機能を持つオンデマンドのAIにアクセスできるため、将来が楽しみです。
もちろん、Googleはその週も休まず、V2を発表しました。これは断然最高のビデオ生成モデルです。私もSoraが最高だと思っていましたが、V2の視覚的なクオリティを見て驚きました。Googleのオリジナルのv0モデルを見たとき、面白いけどそれほど良くないと思っていました。しかし、モデルの第2イテレーションは非常に優れており、驚くばかりです。
タイムラインで見るたびに、100%リアルに見えるビデオクリップがあり、全くAI生成には見えません。もちろん、AI生成クリップには小さなアーティファクトが含まれることもありますが、それはプログラムの性質上のことです。しかし、全体的に見て、このモデルについては圧倒的に印象的な状態だと感じています。これは、コンテンツ制作者にとって大きな強みとなるものだと思います。
将来どのような活用がされるのか、本当に楽しみです。この種のテクノロジーは非常に効果的だと考えており、V2を使用して一貫したキャラクターを持つ映画全体を単一のプロンプトから生成し、テキストや音楽を追加できるようなワークフローが登場したときに何が起こるのか、非常に興味深いですね。「このようなバットマン映画を生成して」「このような犬についての映画を生成して」と言えるような世界に私たちは住むことになるのでしょう。
また、ビデオモデルの将来についての私の予測は、現実世界で起こることや人々がそれを撮影することについて、実際の日常的な出来事の価値が10倍になるだろうということです。なぜなら、何でもAIで生成できるからです。
次に話したいセクションは、Googleがロボット工学に焦点を追加していることです。Google DeepMindチームがいかに知的であるかを私たちは知っているので、これは非常に素晴らしいことになるでしょう。彼らがAtronicと協力することは大きなマイルストーンです。
OpenAIはNeo Robots、1X Robotics、Neoプラットフォームと協力していることを知っています。彼らは素晴らしいことを行うでしょう。また、Figureとも協力していますが、AtronicとはAIを使用して最先端のロボット工学を行い、AIパワードの人型ロボットを作成するために協力することになります。
私は彼らがAtronicを選んだことに驚きました。Atronicが悪い会社という意味ではなく、現存する他の多くの企業の中でAtronicが特別である理由がわからないだけです。Atronicのロボットがどのようなものか見たい方のために、今画面で動画を再生しているはずです。これは非常に興味深く、とても楽しみです。
これは将来的に注目すべきものであり、ロボット工学の開発速度を本当に加速させると思います。なぜならGoogle DeepMindは非常に革新的で、彼らが行うことに対して十分な評価を受けていないと思うからです。
もう一つ驚くべきことがありました。それは中国のロボット事業です。多くの人々は人型ロボットがそれほど早く登場しないと考えていましたが、これは多くの人々、そして私さえも驚かせました。これらの人型ロボットはすでに特定の工場で働いており、組立ラインの一部となっており、すでにいくつかの仕事を引き継ぐ、あるいは役割を支援することになっているからです。
個人的には、生産率を考えると、そんなに多くの仕事を奪うとは思いません。人間は非常に安価で、様々なタスクにおいて非常に効果的なので、すべての人間を排除することは理にかなっていません。しかし、本当に反復的で退屈な、そしてアームを持つロボットでは本当にできないようなランダムなタスクについては、これらの人型ロボットには多くの用途があると思います。
これは非常に興味深いことになるでしょう。これを行った会社はこれだけではなく、別の会社もロボットを披露しました。ロボット軍団のようなものでした。人間のように歩くロボットを見て、奇妙な感じがしました。12ヶ月前にこのクリップを見せられていたら、これはCGIで、少なくとも2年はかかるだろうと言っていたでしょう。
今ここにいるという事実は、経済がかなりの程度加速する可能性があることを示しています。これがこんなに早く実現していることに驚いています。ここで示されているように、これらの軍団があり、そして彼らはデータ収集の取り組みを拡大しています。そのため、収集するデータ量は、業界全体を加速させるフィードバックループとなり、全体的に素晴らしいものになるでしょう。
業界を変えたのは、イーライ・シサが事前訓練が終わると述べたことです。これは最も洞察に富んだ講演の一つでした。スーパーインテリジェンスについての情報を得ました。将来のシステムはエージェンティックで、スマートで、理解が難しくなるだろうと述べています。最も驚くべきことは、これらのシステムは予測不可能になるということです。私たちよりもはるかに賢いため、何をしているのかを本当に理解できないからです。
これは、ある意味で懸念されることですが、これらのシステムが私たちには考えられない方法で考えることができるスーパーインテリジェントな存在、いや存在というか、マインドであることを考えると理にかなっています。もちろん、まだ自己改善の段階には達していませんが、そこに到達したときが本当に不気味になると思います。
事前訓練が終わるということは、パラダイムシフトです。なぜなら、すべてのデータをモデルに投入し、そのデータでモデルを訓練し、その出力を微調整して特定のタスクに使用するという時代が変わるからです。私は、これがイノベーションの時代だと個人的に考えています。
全員がデータだけが必要という考えにいた中で、今は新しく革新的な方法が登場しています。Claude 3.5 Sonnetで何をしたのかわかりませんが、そのモデルは複数の可能性を探索しないモデルであるにもかかわらず、ベンチマークと賢さの面で完全に他を圧倒しています。しかし、そのモデルがまだ比較的高価であることは興味深いと思います。
これは非常に興味深いことになるでしょう。データを収集する事前訓練フェーズが終わるということは、前述のように、これらのモデルをスケーリングする新しい方法を見つける必要があるということです。これは、データに基づくだけでなく、本当に新しい方法を見つけたときに、本当にスマートで、おそらく分布の外側に一般化できるモデルを得始めるということを意味します。
それらの方法が何なのかわかりません。おそらくVJeerなのか、あるいはYananのようなMeta Advanced Machine Intelligenceなのかもしれません。しかし、それが何であれ、今は考えられないかもしれませんが、その革新が何であれ、どのラボから出てくるのかわかりませんが、能力の面で大きなジャンプとなるでしょう。
また、Google Med-PaLMがあります。これは以前のプロジェクトで、見逃していたわけではありませんが、最近大きなアップデートを受けました。最近、これは臨床医が適切に診断を行うのを支援し、元の臨床医よりもはるかに良い結果を出すことができました。
本質的に、これは現在、世界中の専門家の深刻な不足に対応するため、心臓病学や腫瘍学などの専門医療に移行しています。これは複雑な状態の診断と治療計画において熟達性を示し、特に合成乳がんのケースにおいてがんの診断と治療を支援する可能性を示しました。
スタンフォード大学と提携して、心臓病のためのオープンソースデータベースを作成し、専門家と並んでAIシステムのパフォーマンスを評価するためのパイロット評価基準を開発しました。その結果は多くの分野で一般の心臓病専門医と同等かそれ以上であり、63%のケースで意思決定を改善しました。
これは非常に興味深いことになるでしょう。私は近いうちに医療AIが普及すると思います。医療AIが主流になることを本当に妨げているのは、何らかの訴訟にさらされる可能性があることだけだと思います。AIが何かを間違えた場合、「あなたたちはそのシステムを使用し、システムが間違い、あなたたちの技術が原因で私は訴訟を起こします」ということになるからです。希望としては、利点だけを得て、欠点を避けられる段階に到達することです。
また、ニック・ボストロムは、これらのシステムがこれほど進歩すると、AIが本当に一般知能を達成し、その後超人的なレベルの一般知能に達した場合、潜在的に大規模な失業をもたらす可能性があると述べています。
私は、私たちが本当に役立つだろうタスクを考えるのはずっと難しくなると思います。消費者が特定の方法で仕事が行われることを直接好む場合を考えることができます。現在、一部の消費者は、インドネシアなどの搾取工場で生産されたものではなく、政治的に好まれるグループや先住民の職人が作った装飾品に少し余分に支払うことがあります。実際の装飾品が同等であっても、それがどのように作られたかを気にする人がいます。これは人間の仕事がまだ必要とされる例でしょう。
あるいは、ロボットがより速く走れたり、より強くボクシングができたりしても、人々はオリンピックで人間のアスリートが競い合うのを見ることを好むかもしれません。しかし、これらの留保条件付きではありますが、完全な失業が起こり得ると思います。
また、サム・アルトマンも人々が仕事を失うことについて言及しています。人々は仕事を失いますが、多くの新しい、より良い仕事が生まれるでしょう。私たちは、この技術の管理者として可能な限り優れた存在になる責任を感じています。すべての影響を好む人ばかりではないでしょうが、これは来るべきものです。これは人類の科学的成果であり、私たちが行うすべてのことに組み込まれることになります。
仕事の定義が変わります。何千年も前に自給自足の農民として生きようとしていた人は、おそらく今のあなたや私がしていることを見て、それは本当の仕事ではなく、ただ楽しんでいるだけだと言うでしょう。これらのロボットが他のすべてのことを行っているのを見れば、特別な人間のことがあり、工場の機械が私たちのために物を作っていることをあまり気にしないのと同じように、それらのロボットが何をしているかについてそれほど気にしないということが非常に明確になるでしょう。しかし、私たちは本当に気にかけることを見つけるでしょう。
もちろん、今週最大のニュースは、AGIが潜在的にここにあるということでした。新しいGPT-4o3モデルは、多くの人々が4-5年は不可能だと考えていた以前のAIベンチマークを打ち破りました。今年、本質的にAGIベンチマークが破られました。もちろん、これがAGIであるかどうかについて推測する人もいますが、その議論はあなたに任せます。一部のOpenAI従業員はこれがAGIだと述べており、数人が「これはAIです。あなたたちが何を話しているのかわかりません」とツイートしています。
しかし、これは重要なマイルストーンです。なぜなら、今や残されていることは、この製品の価格を下げることと、これが実世界の経済シナリオで実際に有用となるようにエージェンティックにすることだけだからです。この2つは私たちが考えているよりも早く実現すると思います。これは当然、大きな影響を持ちます。
一般の人々の反応を見ると、モデルが何をできるかについての見方が変わってきていることがわかります。これは、このことが加速していることを示しています。また、加速に関して、3ヶ月ごとに訓練する古いパラダイムがあります。彼らがどのようにしているのかわかりませんが、3ヶ月ごとにモデルの新しいイテレーションを得ているということだけはわかっています。
これは、このグラフで見られるような飛躍、つまりARC AIスコアの進歩が、将来的にはおそらくさらに急になるということを意味します。これはおそらく加速しており、GPT-4o1シリーズが加速すると思っていませんでした。なぜなら、そのデータ収集があり、すべてのデータを収集する必要がなくなり、すでにすべてを使い果たし、この巨大な事前訓練フェーズが必要なくなったということは、物事がより速く動くということを意味するからです。
それは特定のイノベーションによって、可能な解決策を探索することができますが、おそらくより効率的な方法で、さらに良い結果につながる可能性があります。Code Forcesの競争を見ても、これらのモデルのランクがどこにあるかがわかります。そして、GPT-4o4はどこにランクされるのでしょうか?3000点、3500点になるのでしょうか?私たちは非常に素早く、本当にスマートなシステムに近づいています。もちろん、AGIについて見ると、ある人が「OpenAIが大好きだけど、彼らは本当に命名が下手だ」と言い、それに対して誰かが「命名が正しくできるようになったら、それがAGIを達成したということがわかるだろう」と言ったところ、サム・アルトマンは「おそらくagi-1と呼ぶことになるだろう」と述べました。これは非常に非常に興味深いことになるでしょう。
今日のビデオを楽しんでいただけたなら、素晴らしい週末と残りの週、そしてすばらしいクリスマスをお過ごしください。また会いましょう。

いいなと思ったら応援しよう!