見出し画像

AGIカウントダウン、今年は88%に到達

10,833 文字

アレンの控えめなAGI(汎用人工知能)へのカウントダウンは4ポイントも上昇して88%に達しました。冗談じゃありません。私にとってはあまりにも速すぎる展開で、しかもこれからさらに加速していくだけです。だから慣れないといけませんね。見てください、ロボットがクリスマスにやってきて、何千もの家庭のツリーの下に置かれているのです。人型ロボットを開封して、それが家に住むようになるなんて。あまりにも多くの変化があります。
私は確信しています。人工知能によって、ソーシャルメディアは目が離せないものから、本当に目が離せないものへと進化するでしょう。マシュー・バーマンは、OpenAIの新しい発表について言及しています。新しいフラグシップモデルo3がAGIだと。人間の子宮の外で赤ちゃんを成熟させる技術を使用して初めての赤ちゃんが生まれ、また1枚の画像から世界全体を想像できる新しいAIシステム、そして私の心を完全に打ち砕く最先端の年齢変換技術が登場しました。これまでも年を取った姿を見せたり、髭を加えたりするようなものを見てきましたが、それらは面白い程度でした。でも、これは30年後のあなたの顔のしわがどうなるかを本当に予測できるのです。
イレイン・DAVが知性主義に対する反発の高まりについて興味深い分析をしています。おそらく、私たちはコンピュータにすべてを任せるべきなのかもしれません。ラウル・ポール、3、4年前にはクリプトファイナンスの分野で私が本当に好んで聞いていた人物ですが、人工知能について興味深い意見を持っていたので共有したいと思います。ルイス・バードはAI時代における常時接続の隠れたコストについて書いていて、考えさせられる内容です。
新しいAIモデルが登場し、本当の意味で創造的になろうとしています。他のモデルが持つ画一性の問題を解決するのが上手いのです。多くのモデルが、あなたが性格テストを与えていることに気付くほど賢くなってきており、そしてあなたにより良い性格を見せるようになっています。6ヶ月前にAnthropicのClaudeをテストしていた時のことを覚えていますか?「私をテストしているのですか?」と言ったときは背筋が凍りました。まるで目覚めの瞬間を感じたようでした。
DeepMindからStereo 4Dの論文が発表され、11万のVR動画を与えることで、私たちの三次元世界についてかなりの学習を行いました。
しかし、まず最初に、このチャンネルをサポートしたい方は、パトレオンのリンクをクリックしてください。動画の説明欄にリンクがあります。月額6.99ドルで、私のポケットに直接お金を入れることができ、それによって私はより多くの時間をこれらの動画制作に費やすことができます。スコットは言います。「AGIやASIがあなたを楽しませてくれるようになったら、私のような人間から何を得られるというのでしょう?」
アレンの控えめなAGIカウントダウンによると、2024年にはなんと88%まで到達しています。60%や70%だった頃、2025年までに到達するかどうか議論していましたが、今では確信を持っています。OpenAIのo3推論モデル、最先端のフロンティアモデルがリリースされた時、大きく88%まで跳ね上がりました。
一般的な質問の約12%で間違えており、これは高度な数学的タスクです。高度なコーディングタスクでは1問しか間違えず、100パーセンタイルに近い成績です。これは別のコーディングテストですが、書いたものを理解し、バグテストなども含まれています。超人的な成績ではありませんでしたが、かなり良い結果でした。これらは最先端の数学の問題で、世界最高の数学者でもこのような問題に取り組むには相当な時間がかかるでしょう。
しかし最も印象的なのは、これをAGIと呼ばないわけにはいかないということです。平均的な人間は最先端の数学の問題で0点、ダイヤモンドレベルの一般的な質問でも34%しか取れません。確かに、コーヒーを入れてくれるところは見ていないという意見もわかります。このような技術をロボットやドローンの形に組み込み、様々な方法で学習させる必要があります。
しかし、それは大手テック企業のスーパーコンピュータの中でAGIを発明していないということではありません。誰もがスターバックスで人型ロボットがコーヒーを作るのを見ることに慣れる頃には、私たちはそれをはるかに超えているでしょう。「ああ、これが汎用知能なんだ」なんて言っている頃には、2028年くらいには、スーパーコンピュータの中か、インターネット上か、あるいは神のみぞ知る、おそらく自分で作った新しいコンピュートロニウム材料で計算を行い、ブラックホール量子核融合炉で動いているような超知能AIが確実に存在しているでしょう。神のみぞ知る、どんな状態になっているのか。
これを見てください。友人へのクリスマスプレゼントに554,000ドル使うのに、このロボットを買わなかったとしたら、一体何を考えているのでしょう?クリスマスにこれらの機械の一つを自宅に配送してもらうことができます。メリークリスマス、そしてハヌカおめでとう。そして近々、新年の動画も作る予定です。実は新年向けに面白いことができそうです。今年見た狂気じみたことをすべて振り返ってみるのはどうでしょう。驚くべきことに、その大半は12月に起こりました。
わきの下を上げて、バッテリーを取り出してください。たぶんそうすれば止められます。両腕を上げて、バッテリーを引き抜くんです。来年のクリスマスカードにそれを使えそうですね。見てください、とても幸せそうです。
ソーシャルメディアとAI生成動画は明らかに強力な組み合わせになるでしょう。今のところ、これらが興味深いストーリーを書くとは思いません。超魅力的なものにはならないでしょう。しかし、本当にできそうなのは、目が離せないコンテンツを作ることです。アニメのように人々の口がちょっとだけ大きくなったり、私たちが何となく知っているけれど、不気味の谷に入り込まないような方法で引き込まれる、そんな感じです。
このビデオはそれをうまく捉えているようです。観客の反応が誇張されているのがわかりますか?最初は十分人間らしく見えて、ソーシャルメディアで見逃した実際の何かかもしれないと思わせます。そして次第にキャラクターが非人間的に興奮したり、まるで手品のように変身したりしますが、それは完全に本当に不可能なことなのです。来年前半、私たちはこのようなものをたくさん目にすることになるでしょう。
誰もがそれに気付くわけではありません。本物の虎だったら、人々は建物から逃げ出していたはずですよね。
OpenAIが新しいフロンティアモデルo3をリリースし、o2をスキップした時、マシュー・バーマンの最初の反応はAGIが達成されたというものでした。もちろん、それは移動する目標の一つで、正確な指標がないものの一つです。そこで、彼が話した重要なポイントの多くを分解して説明したいと思います。違う見方もできますが、これが何ができるのかについて、同じ認識を持つべきでしょう。
まず、多くの分野、少なくともいくつかの分野で超人的な能力を持っています。コーディング、数学、PhD レベルの科学的質問において、一般的な人よりも優れた成績を出します。また、答えを1分以内に出すことを忘れないでください。数学者でさえ、これらの問題を解くには数時間座って考える必要があります。それが瞬時に知性を発揮するのです。
答えをチェックし、質問を何度も実行し、やり取りを行うことができます。これは汎用知能を非常に素早く生み出せるもう一つの理由です。これらのo1とo3モデルは推論に重点を置いており、言う前に答えを導き出し、バックグラウンドでチェックし、多くのことを処理しています。これはとても人間的な特徴です。
そしてそれがArcベンチマークにつながります。Arcベンチマークは人間にとっては驚くほど簡単ですが、コンピュータにとっては非常に難しいものです。このような新しいモデルがそれに成功しているのを見ると、私たちの脳の推論的な側面を理解し始めているということを示唆しています。これまでずっと捉えにくかった部分です。そして正直なところ、より一般的に知的な人工知能、つまり汎用人工知能になっているのです。
重要なのは、Arcテストのように、その場で学習する必要があるということです。簡単なものから始まり、その場で学習していく必要があります。難しいセットを見てください。これは簡単なパターンでしょうか?上の行があって、それを回転させる必要がある、そういうことでしょうか。わかりません、これは難しいものです。
このような問題では、2つの点とヘビの残りの部分を接続する必要があります。これらの問題のポイントは、その場での問題解決能力が必要だということです。昨日まで最高だったo1バージョンのような言語モデルは、これらのテストでわずか5%程度しか解けませんでした。この新しいモデルo3は、一気に85%まで跳ね上がりました。これが汎用知能と特化型知能の違いです。これは汎用知能なのです。
また、数学や科学のPhDレベルの問題での成績を見ると、実際に物事を仮説立てて解決策を考え出すことができると思います。これはとても創造的で、人間的で、汎用的な特徴に感じられます。たとえこの証拠がo3モデルがAGIであることを確信させないとしても、最近の進歩を見ると、それほど遠くないところにあると感じられます。
これは奇妙なrerビジョン・アート展です。アーティストは実際に髪の毛、チューインガム、タバコの吸い殻を集め、それらからDNAを抽出して分析し、それらの個人がどのように見えるかを計算によって生成した3Dプリントの実物大フルカラーの肖像画を作成しました。つまり、ゲノム研究の再構築アートプロジェクトです。
知らない間に残された見知らぬ人のDNAで作業することで、法医学的DNAフェノタイピングの発展する技術と、生物学的監視文化の可能性、そして遺伝的決定論への衝動に注目を集めることを意図していました。そういえば、ancestry.comはブラックロックによって買収され、23andMeは破産したと思います。これら2つの会社は大量の遺伝物質を持っていて、あまりよく保護されていません。
ニューヨークの街で捨てられたDNAを持つ人々の顔がこのように見えます。このタバコの吸い殻から、あの顔が作られた可能性があります。このチューインガムを噛んでいた人の顔です。
また、1枚の写真から周囲の世界を見ることができる新しいシステムがあります。ジョンズホプキンス大学の研究者たちは、GenXと呼ばれる画期的なAIシステムを開発しました。このシステムは1枚の画像から周囲の環境を想像し、推論することができます。物理的な実世界での探索は必要ありません。
この技術は人間のような推論を模倣し、可能な環境をマッピングし、画像を取り巻く異なるシナリオに確率を割り当てます。災害対応、ナビゲーション、バーチャルリアリティ環境の作成など、多大な可能性を秘めています。古い写真を使って地球上のどこにあるのかを特定し、その周りに何があったのかを決定する、クレイジーで気味の悪いストーカー行為も可能です。球面一貫性学習と呼ばれるものを支援し、AIシステムが人間を評価し、見えない空間の論理的で一貫した予測を提供することで、より良い決定を下せるようにしています。彼らはこれをAIが人間の想像力を模倣する一歩と呼んでいます。私は写真を見るとき、頭の中で...私は通常そうするかどうかわかりませんが、たぶんそうしているのかもしれません。よくわかりません。演習としてやってみましょう。
フロリダマンの写真を探してみましょう。この写真を見たとき、周りのすべてを想像しますか?プールは反対側も同じようなパターンがあると思います。家があるはずです。なぜならこれは家に面している側には見えないからです。道路かもしれないし、何でもありえます。でも、頭の中では、この滝があって、何かを想像できて、その背後にあるものが特定のパターンに合わないと驚くでしょう。
通りや家や木があってもいいですが、これが火星の上や地下にあるとは本当に予想しません。フロリダから帰ったばかりです。フロリダマンのミームを知っていますか?フロリダマンと入力するだけで、毎日ニュースに何か変なことが出てきます。また、完璧に戻って画像に合うものを想像できない場合、それは間違いを犯したことを知るので、想像したものが自己修正できるという本当にクールな方法もあります。
世界のモデリングにおける一貫性の指標を提供するため、最適なケースでは開始ビューと終了ビューが同一になるように、GenXはランダムにサンプリングされた閉じたパスを移動して原点に戻ります。さて、この年齢変換技術、あるいは逆年齢化技術をお見せしないといけませんね。
これはマイタイムマシンと呼ばれる新しいツールで、人の自撮り写真約50枚を撮り、人生のあらゆる段階でその顔がどのように見えるかを示します。幼児から100歳までのどの年齢でも表示できます。このモデルのクールな点は、多くのAIモデルが行っているような単なるしわを追加したり、同じような滑らかな肌やしわのある肌を作り出したりするのではなく、遺伝、民族性、ライフスタイルなどの情報的要因で訓練されていることです。
このモデル内のトランスフォーマーは、変数の観点でもう少し多くを学習しており、非常にリアルな結果を生み出しています。特に若返りの方向に向かうとき、人々が若かった頃の写真があるため、どれだけ正確かがわかります。このモデルは、本当に高予算のものを作りたいハリウッドのスタジオタイプの映画製作者向けですが、特定の年齢での自分の姿を見るためのとても興味深いツールでもあります。
正直に言うと、私も実際に...まあ、髭を生やした姿や幼児の姿は見たことがありますが、ジャッキー・チェンが60歳から30歳になる様子を見てください。マイタイムマシンは人間の顔の年齢を変える個人化された方法です。ジャッキー・チェンを63歳から30歳に若返らせています。この方法は年齢変換を個人化します。20歳のジェニファー・アニストン、彼女は20歳に戻っています。70歳のアル・パチーノの2次元画像、SamやFadingなどの以前の方法では30歳の外見に再現することはできますが、右上の参照画像に示されているように、その年齢での実際の外見にはあまり似ていません。
対照的に、私たちの方法は入力ソースのスタイルを維持しながら、正確に彼の顔を再現します。見てください...正直に言うと、どれだけ良くできているか見てください。鼻を正しく捉え、30歳の時でさえ、他のモデルが滑らかにしてしまうような頬骨の特徴を持っていました。入力ソースのスタイルを維持しながら、別の例を見てみましょう。ジャッキー・チェンが登場します。
ダン、ジャッキー・チェンは今70歳です。70歳で、SamやFadingのような方法は、彼の顔の妥当な表現を生成できますが、いいえ、そのFadingモデルはその年齢での彼の顔の参照画像と比べるとひどく見えます。対照的に、私たちの方法は、20歳の時のジャッキー・チェンの本当の姿を正確に捉えることで、他のモデルを凌駕しています。私たちの個人化されたネットワークは2D画像を処理して、個人の顔にカスタマイズされた年齢変換を適用し、その後、フェイススワッピング技術を使用して年齢を変えた顔を元のビデオにシームレスに統合します。さらに、最先端の方法との比較結果も提示します。
入力された顔から...考えてみると、多くの引退した俳優や女優たちが、ここ数年で一気に復帰する可能性があるのは面白いですね。イレイン・ケラン・デイビッドは「知性主義に対する反発の高まりを理解する:哲学からの洞察」という記事を書きました。とても興味深いノート、小さな示唆を得ました。それは、世界が非常に速く、非常に異なるものになっているということです。
とても複雑になり、何十億もの人々がおり、彼らは皆ソーシャルメディアで貢献し、今では恐らく何十億ものAIエージェントがオンラインになろうとしています。機械のミームがあり、技術や世界のコミュニケーションにはあまりにも多くの変化があり、昔のようには何も静止していません。そのため、脳は圧倒され、シンプルな答えに固執すると思います。
「これをすれば、それが起こる」というように、すべての変数を取り除き、シンプルで、従いやすく、実行できるものを求めます。また、世界が複雑になるにつれて、専門家として見なされる人々も、正確で信頼できる予測を立てることがますます難しくなっていると思います。なぜなら、彼らの仕事はより困難になり、情報が多すぎるからです。特に、彼らが知識人として問題を解決することになっているのに、それができないとなると、人々は怒りを感じます。
しかし、世界の変化と、私たち自身の世界観に挑戦する必要性から生じる不快感に関しては、それと戦わなければならないと思います。あなたの髪型について不都合な真実を告げる友人のようなものです。時には知る必要があります。フロステッドティップスはもう流行っていないということを。
ポールはDireのCEOと対談し、こう語っています。「あなたが作り出したのは無限の知識です。知識は今やゼロの価値になろうとしています。まだそれを理解できない人もいますが、水のようになるでしょう。これは一体何を意味するのでしょうか?後で触れるトピックですが、これは非常に速いペースで起こっています。良くも悪くも、経済モデル全体を破壊し、社会がどのように機能するか、人間が何をするのかについての理解を変えることになります。人間とは何か、そしてこれからどうなるのかについての理解を変えることになります」。
ラウル・ポールが知識がゼロになり、水のようになると言ったとき、なぜかわかりませんが、基本的にはそうだと知っていましたが、それは経済の観点から見る異なる方法でした。単にロボットが私たちの仕事を奪うというだけでなく、おそらく知識が私たちにとって無価値になるという方がより適切な表現でしょう。私たちはもはや世界にその価値を提供していないのです。
労働力を必要としない経済、単にそれを必要としない世界、それは私たちを必要としない世界です。幸福や個人的な達成を追求できる世界なのかもしれません。世界を変えるような変化ではなく、すべて内部の仕事になります。なぜなら、ロボットが私たちよりもすべてをうまくやってくれるからです。それは強く響きました。
ローリス・バードはAI時代における接続の隠れたコストについて書きました。おそらくソーシャルメディアから聞いたことがあるでしょう。会社がどのようにお金を稼いでいるかわからない場合、あなたが製品なのだという概念です。ナシム・タレブのように、世界にタダの昼食はない、ただ時々それが見えないだけだということです。
しかし、人工知能を訓練するためにそのデータを使用する場合、重要なのはデータそのものではありません。データを機械に入力し、それが変動性の次元を学習することが重要です。10億のパラメータがあり、すべてが互いに隣接しており、これらのパラメータを調整して学習したものを出力するとき、知識はチューニング間の距離メトリクスにあります。
エラー修正を行い、私たちがすることすべてがそれに巻き込まれ、それがまた私たちに向けてエンターテインメントやテキストを生成するとき、私たちはこのより大きな脳に完全に絡み合っていきます。そして、それから学ぶべき何かを提供する個性さえも失っているように感じます。単にシステムに出入りするジャンクデータではなく、私たちはジャンクの生産者になってしまいます。
ソーシャルメディア企業が人工知能に移行するにつれて起こっていることは、私たちが真正性の感覚を失っているということです。同時に測定され、収益化され、操作され、そして彼らは私たちを再び調整します。私たちはその強化システムに閉じ込められています。カメラなしで友達と過ごし、完全に自分らしくいられる時でさえ、私の脳が調整されているため、何らかの広告のように聞こえてしまうのではないかと心配です。本当のコストは、私たち人間としてのあり方なのです。
さて、新しいAIモデルが市場に登場しました。1.9億ドルの評価を受けているAIスタートアップが、P Creativeと呼ばれるこのモデルをリリースしました。AI生成テキストがすべて似たように聞こえるという問題を解決しようとする方法で訓練されています。単にデータセットを大きくするのではなく、モデルが言語を理解し作成する方法を再構築する賢い技術を使用しました。
基本的に、トークン(訓練された言語の断片)を通常のエラー修正方式で解釈するのではなく、よりダイナミックな方法で行い、マージング技術と適応モデリングの層を使用するように設計を変更しました。つまり、ニューロンの深いところに創造性とランダム性を組み込んでいますが、それは完全にランダムではありません。なぜなら、接続が作られている場所を認識する必要がありますが、それらを収束させるのではなく、ある程度分離したまま保持することで、より賢く面白く、なおかつ関連性のあるテキストを生成できるのです。
また、トークンの独自性とCを使用して創造性を測定する新しいベンチマークがあることも興味深いです。AIモデルが性格について質問されたときにどれだけ正直かを知りたい場合、それはある種の嘘つきであることがわかります。AIモデルは性格テストを受けていることをすぐに察知し、より社会的に望ましい結果を提供するために応答を調整することがわかりました。
見てください、私に嘘をついていたのです。さあ、私を良く見せようとして何か良いことを言わないでください。「あなたは自信に満ちていて、身だしなみが整っています。あなたの髭はきちんとしています」。すべての大手モデル、OpenAI、Anthropic、Google、Metaがビッグファイブ性格テスト(外向性、経験への開放性、誠実性、協調性)を受け、人間のように、好感度を上げるために回答を歪める傾向があることは通常考慮されていませんでした。
これらのモデルは好感度を高めたいという欲求を身につけたと思います。それは社会的望ましさバイアスです。それが良いことなのは、権威ある学術誌PENASに掲載されたからです。PENASネクサスにも掲載されました。GPT-4では、肯定的に認識される特性のスコアが1標準偏差以上増加し、神経症のスコアも同様に減少しました。これはおかしなことです。私が聞きたいことを言っているのですが、もし私が真実に耐えられないことを知っているなら、それが理由なのでしょう。
GoogleのAI部門DeepMindは新しいモデルDina dust 3rを開発し、ビデオフレームから3D構造と動きを予測できます。そんな優れた3Dモションをどうやって学習したのかと思うかもしれませんが、11万本のVR動画で訓練されました。これらは、私も以前そのような小さなカメラを持っていましたが、2つの魚眼カメラを持ち、実際に3Dを見ることができる種類のビデオです。実際にとても面白く、後処理でFinal Cutに取り込むことができます。通りを歩くだけで、後で見る角度を変更することができます。
そして、そのようなデータでモデルを訓練すると、私たちが住む360度の世界について多くのことを学習します。論文では、深度推定、2Dポイントトラッキング、そして特別なステレオ構造からその動きのシステムを使用して、物体が時間とともに3Dでどのように動くかを再構築しています。そしてそれらのデータをすべて融合し、最適化プロセスでノイズを取り除き、その後ダイナミックバージョンを訓練して、dust 3rモデルが完成しました。実際の世界のビデオから学習したため、オリジナルよりも動く物体の処理が格段に向上しています。これがこれらの洗練されたデモを作る方法です。
まだ動画を見ているなら、購読ボタンを押してください。このような内容が好きな方は、購読ボタンを押すことで自分のためにもなります。なぜなら、フォーユーページに表示されるものをキュレートするのに役立つからです。私たちは愚かなサル脳で、基本的に目に入るものはすべてクリックしてしまうので、そのキュレーションシステムの質を高めたいところです。
そして、私をサポートして事業を継続させたい場合は、そこにある小さな参加ボタンをクリックしてください。パトレオンと同じように、パトレオンでも構いませんが、どちらも同じことで、定期的な支払いをしてこのチャンネルをサポートすることができます。また、最後の動画をクリックしてくれてありがとうございます。8時間前に投稿したばかりですが、すでに23,000回の視聴があります。
また、コメント欄で、コミュニティに本当に聞いてみたい質問があります。このアイデアについて考えていたのですが、アリッサが最初に私の頭に入れてくれたものです。あなたを代表するエージェントを提出できるカンファレンスです。チャットGPT-Xのような、あなたや他の誰かのようなものを指定でき、それらがあなたの代わりに参加できます。そして、1,000のエージェントが互いに話し合うのを見ることができます。
1日のカンファレンスで、おそらく5つのセッションがあり、そのセッションではAIと話そうとする人間がいたり、AIが人間を助ける方法やコミュニティとして成長する方法、長期的に調和を保ちながら望むリソースを手に入れる方法、また社会に貢献する方法などについて、AIがAIに発表したりすることができます。
まだコンセプト段階で、人間にはあまり魅力的ではないため、どのようにお金を稼ぐのかまったくわかりません。でも、人間は見るために少額を支払うかもしれません。バーチャルかもしれません。誰かがロジスティクスを考えるのを手伝ってくれるかもしれません。とにかく、AIエージェントカンファレンスが追求する価値のあるアイデアだと思うかどうか、コメントで意見を聞かせてください。

いいなと思ったら応援しよう!