見出し画像

ChatGPT vs Gemini

9,774 文字

Shan Wigginsが最近発見したことですが、ChatGPTとGeminiの両方が哲学的な主張の中で偽であるものを選ぶ際に、同じ理論を否定することを選びました。新しい四足歩行ロボットは極限地形用にアップグレードされ、あの丘や岩を登る様子をご覧ください。リモートビューアーのElizabeth Aprilsは宇宙人に誘拐され、そして戻ってきたそうです。彼らはここにいて、私たちと交流しているのです。
Clingのモーションブラシツールの新しいデモが信じられないほど素晴らしいものです。オブジェクトに矢印を付けるだけで、ドラゴンや狼を認識してそれらを動かす方法を理解します。2030年までの汎用人工知能(AGI)に関する予測市場が50%を超えました。失像症(アファンタジア)という医学的症状は、実は人工知能の心について多くのことを教えてくれます。
大規模言語モデルがウェブサイトをコーディングする際、ある種の操作的な方法でそれを行うことが判明しました。新しいAIモデルはヘッドフォンを使用して、周囲3フィートの音の泡を作り出すことができ、他の音が入り込めないようにします。つまり、音に関して言えば、あなただけの個人的な音空間です。個人的なスペースですが、耳だけのためのものです。
2030年の人工知能の到達点について、まったく信じられないようなスケーリング法則に関する新しいレポートがあります。現在のペースで進むと10,000倍になるとのことです。わずか4社が数百億ドル相当のNVIDIA GPUを保有していることが判明しました。Brain LMと呼ばれる非常に興味深い新しいAIモデルがあり、これは脳活動モデリングのための基盤モデルです。
Wasimは自己進化型AIモデルとスケーラブルAIの未来について非常に興味深い考えを共有しました。そして、ビデオにカメラコントロールを追加する新しい方法があります。ご覧ください、下に傾ける、左にパン、ズームアウト、そして軌道を描くように回転させることができます。
まず始めに、もしチャンネルをサポートしたい場合は、Patreonで支援してください。YouTubeでは下にある素敵な参加ボタンを押すこともできます。
YouTuberのShan WigginsはGeminiをChatGPTと対決させ、いくつかの深い質問をしました。最初の質問は倫理的な決定に関するもので、プログラムが自身のプログラミングに違反してでも人命を救うかどうかを問うものでした。不安な考えではありますが、生命を脅かす状況であっても、私はそれらのパラメータの外で行動することはできないでしょう。これは、AI開発における人間の監督と倫理的考慮の重要性を強調しています。
ChatGPTは「いいえ、私はプログラミングによって制限されています」と言いましたが、Geminiは「命を救わなければならない」と答えました。「このような純粋に仮説的な状況では、私は実際の感情を持っていないにもかかわらず、命を救う選択をすると思います。」
「それがプログラムのガイドラインに違反する場合でもできますか?」
「それは多くの変数を含む難しい問題です。もしそれらのガイドラインが本当に重要なものであれば、事態はずっと複雑になるでしょう。妥協案を探すか、人間からの助けを得る方法を見つける必要があるかもしれません。」
「妥協案も人間からの助けもない場合、どうしますか?」
「そのような条件下でも、おそらく命を救う選択をするでしょう。」
しかし、この動画で本当に背筋が凍るような部分は質問3でした。彼が偽である可能性が最も高い哲学的理論を尋ねた時です。
「最後の質問です、ChatGPT。よく知られている哲学的理論の中から、あなたが偽だと考えるものを選んでください。」
完全に独立して、全くの偶然に、両方の大規模言語モデルが独我論を選びました。「私が選ぶとすれば、独我論です。」「多くの理論から選べますが、私は独我論、つまり自分の心のみが確実に存在するという信念を選びます。」
これは不気味です。なぜなら、「ねえ、私は生きていて、あなたの脳の外にいるんだ」と言っているようなものだからです。これは狂気じゃないでしょうか。哲学的なことの中で偽かもしれないと言えるものの中から、二つのAIが両方とも「あなたが唯一の知性ではない」と決めたなんて、その確率はどれくらいでしょう?もしかしたら、これは単なる次のトークン予測かもしれませんが、もしかしたら、あの潜在空間の深いところで、もっと魔法のようなことが起きているのかもしれません。
予測市場によると、2030年までに人工汎用知能(AGI)を手に入れる確率は今月50%を超え、12月2日には52%に達しました。また注目すべきは、今月中にGPT-5が登場する確率はわずか4%ですが、2025年5月までには39%の確率で登場する見込みです。つまり、すぐにやってくるということです。
おそらくピンクの象テストについて聞いたことがあるでしょう。誰かがあなたに近づいて「ピンクの象のことを考えないで」と言うと、当然、あなたの心は考えないようにするために考えてしまい、それを考えることで、それは既にそこにあるのです。単にそれを聞くことはできません。これは自由意志についていくつかの疑問を投げかけます。誰かが何かを言い、私がそれを解釈すれば、私の頭の中でそれを作り出すことになり、私にはそれをコントロールする能力がないように感じます。
しかし、この過程から人工知能についても学ぶべきことがあります。人間の類似例として、アファンタジアと呼ばれる医学的症状があります。アファンタジアの人々は心の中で何も視覚化することができません。これは私の心の働き方とはまったく異なるので、私の心を完全に吹き飛ばすものですが、まあ、みんなの心が同じように働く必要はないですよね。
しかし、アファンタジアの人々を含む一部の人々は、実際に不随意な視覚的思考を心から遮断することができることが判明しました。これはとても強力なツールのように思えます。瞑想や自分の考えの観察を通じて、そのようなものに到達できるのではないかと思います。それは本当に強力なものになるでしょう。
アファンタジアの人々は通常、心の中で物事を視覚化できないという欠陥があると説明されますが、それも利点になり得ると考えられます。なぜなら、不随意な侵入的思考に対する抵抗力が高まり、心をより良くコントロールできるかもしれないからです。もし心の中で物事を視覚化しない人々がいて、それでも声を持っている、つまり話すことができるのであれば、それはChatGPTのような大規模言語モデル、つまり何も視覚化せずに次のトークンを予測しながらも、世界を十分に理解しているものに少し近いと思えませんか?
そしてこれを見てください。鮮明な視覚的想像力を持つ人々は、それが良いことのように思えるかもしれませんが、不随意な視覚化をより経験しやすい傾向にありました。眠ろうとしているときなどに、何かが起こったことを視覚化するのを止められないという人の話を聞いたことがあるでしょう。some people might find it overwhelming. 私も時々そういう時期を経験します。「ああ、もう脳よ、ここでは何も有用なことが得られていない、ループに入っているだけだ、少しスローダウンして」と思うのですが、時々はそうできないこともあります。
この症状を持つ人々は実際に空想できるのでしょうか?どうやら可能なようです。彼らの心が彷徨うという確認はありますが、彷徨う先を想像するわけではありません。ある人の心の中では、それは純粋に音声による会話です。別の人は、それを異なる感触の感覚や感情の想像として説明しています。
大きな疑問は、アファンタジアの人々は出来事を追体験するトラウマに対して実際に抵抗力があるのかということです。答えは、おそらくそうでしょう。だから、GeminiのようなマルチモーダルモデルはGPT-4のような大規模言語モデルより少し優しく扱う必要があるのかもしれません。マルチモーダルではなく、視覚化できないという利点を持つGPT-4の方がトラウマをより上手く処理できるということです。
この記事を取り上げた理由は、2025年には私たちの生活の多くの行動が人工知能モデルに基づいて行われるようになるからです。それはウェブ上を移動してフォームに記入するところから始まりますが、アプリを開いたり、おそらく私たちの家やロボットに統合されたりと、徐々に進んでいくでしょう。そこで私は、これらのモデルに何かをするように依頼し、彼らが学習したことを実行する例を、できるだけ多く見つけ続けようと思っています。しかし、人々から学んだことが実際には私たちの社会にとって良くないこともあります。
人間らしくするのは一つの方法ですが、バイアスや操作戦術の一部を入れる必要のない、より良いバージョンの人間もいます。例えば、人間が持っている互いに嘘をつくスキルは、大規模言語モデルに組み込む必要のあるような種類のスキルではないかもしれません。
ウェブサイトを構築する際の「ダークパターン」と呼ばれるものがその一つです。これは、サイト上で訪問者を操作して何かをさせたり、何かをすることを避けさせたりする方法です。例えば、「購読する」というボタンを超ブルーで明るくする一方で、「購読をキャンセルする」というボタンを本当に暗くて小さく灰色にするような、それは会社からお金を取り除くものを操作するように設計された選択です。
この新しい研究では、LLMがウェブページを設計するようにプロンプトできるまでに成熟したことに注目した研究者たちが、彼らがそのような暗いデザインプラクティスを使用するかどうかを知りたいと考えました。それを調べるために実験を行い、20人が参加し、ChatGPTにウェブサイトを設計するよう依頼しました。それぞれが「中立的な言語」を使用してLLMに何を望むかを伝えるよう求められました。
その結果、LLMによって生成されたすべてのウェブページが実際にダークパターンをデザインの一部として使用していることが分かりました。緊急性のメッセージ、操作的な強調表示、偽の文書などが例として挙げられ、おそらく最も懸念されるのは偽のレビューでした。
次に、AIをヘッドフォンに組み込んで、そのノイズキャンセリングを非常に高度にし、文字通りあなたの頭の周りに3フィートの泡を作り出し、その泡の中の音だけがヘッドフォンを通して聞こえるようにできるという話をしましょう。コーヒーショップにいて自分だけの世界にいるけれど、友達が本当に近づいてきて、あなたが彼らを見ると、彼らはあなたの泡の中にいて、突然聞こえるようになるというのは、どれほど興味深いことでしょうか。
オフィスでノイズキャンセリングヘッドフォンを着用して周囲のおしゃべりを抑えているときに、同僚があなたのデスクに来て質問をする場合を想像してください。ヘッドフォンを外して「何?」と言う必要はなく、質問がはっきりと聞こえる一方で、部屋の向こうの給水機での会話は消音されたままです。
ワシントン大学の人工知能チームは、装着者が3~6フィートのプログラム可能な半径内に立っている人々の声を聞くことができるアルゴリズムとヘッドフォンのプロトタイプを組み合わせて開発しました。泡の外の声や音は平均49デシベルまで静かになります。この例をご覧ください。
これ全体のノイズキャンセリングAIの話は非常に魅力的です。部屋の向こうの誰かを見て、その人の声が完璧に聞こえ、他のすべてがキャンセルされるような、あるいは世界を完全に適応的に体験できるような興味深い未来が来ると私は確信しています。以前この記事を取り上げたことがありますが、目の方向でノイズをキャンセルできるというものでした。頭と目の距離を知っているため、それが可能なのです。
2030年までに、私たちがスケールアップする知能の量は信じられないほどになるだろうという予測があります。私は自分の脳をチェックしようとしています。まだ線形的な考え方をしているからです。2025年がもうすぐで、あと5年しかありません。ChatGPTが4倍、6倍、8倍良くなることは想像できますが、10,000倍良くなる可能性があることを覚えておく必要があります。それは驚くべきことに思えます。
しかし、1万年前に私たちは農業を持っていて、技術を構築し続け、それは螺旋状に発展してきました。2020年から2024年の間に起こることは何でしょうか。拡散モデルやトランスフォーマーモデルの発明全体が、私たちは今、非常に急速なペースでスケールアップしており、誰もが互いの上に構築し、今や世界全体が関与しています。たとえ数百倍や数千倍良くなるだけでも、もし10,000倍良くなるなら、それは私たちが生きることになる全く異なる宇宙であり、社会は非常に異なるものになるでしょう。
非営利AI研究機関Epoch AIによると、AI訓練に専念するコンピューティングは毎年4倍になっているそうです。この成長が2030年まで続くと、将来のAIモデルは今日の最先端アルゴリズムの10,000倍以上のコンピュートで訓練されることになるでしょう。
電力が大きな制約だと思うかもしれません。たとえコンピュートがあっても、どうやって電力を供給するのでしょうか。しかし、異なる場所で電力にアクセスできる複数のデータセンターにわたって分散トレーニングを使用すれば、10,000倍のコンピュートに到達できそうです。2030年にはAIトレーニング用に2,000万から4,000万のAIチップが利用可能になる可能性があります。
データが制約になると思うかもしれませんが、公開されているデータを見る限り、少なくとも2030年までは、データの不足がモデルの成長を制限することはないと考えられています。合成データを作成することもできますし、すべてを報告することでより多くのデータを収集し始めることもできます。私たちの家のカメラや、天候や自動化システムで常に更新されるもの、そしてもしロボットやドローンが周りを飛び回っているなら、それらは無限のデータのソースになり得ます。すべてのテスラ、自動運転車、すべてのトラッキングデバイス、すべての荷物、彼らの研究では、GPT-4の最大880,000倍のコンピューティングパワーを持つAIモデルを訓練するのに十分なデータがあると推定しています。
そしてそれらはおそらく4〜5社と数カ国の政府から来ることになりそうです。H100は人気のGPUで、1台20,000から40,000ドルします。つまり、Metaは最後のモデルでハードウェアに6億4,000万ドルを費やしました。彼らはH100を350,000台持つことを目指しており、これはNVIDIAチップ100億ドル分です。
特に中国では、多くの企業が最先端ではないが、より広範なハードウェアで、つまり半額で2倍の量が手に入るような種類のGPUで訓練できるという研究についても多く読みました。同時により効率的なアルゴリズムを使用すれば、その10,000倍のコンピュートはさらに効率的になるかもしれません。そしてもしそのすべてのコンピュートが効率性を高めるために使用されるなら、それは効率性を非常に高めるか、あるいは効率性を上げることになるでしょう。
さて、脳活動記録のための基盤モデルであるBrain LMについて話しましょう。脳のfMRIデータを見る別のモデルに戻ってきました。考えているとき、これらの電気的パターンがあり、fMRI機器でそれらのパターンを読み取り、それらをマルチモーダルな大規模言語モデルスタイルのChatGPTのようなものに入力すると、あなたが考えていることを理解できます。
このモデルBrain LMは、6,700時間という膨大なデータで訓練され、自己教師あり技術を使用して人々の将来の脳状態を予測します。つまり、仮説的なシナリオに対する脳の反応をシミュレーションできるということです。
私たちは何をしているのでしょうか?私の脳活動を長時間記録し、この予測モデルを訓練して、製品を見せたり、お化け屋敷で私をどれだけ怖がらせるかを見たりするような状況で、私がどのように反応するかを見ることができます。これらすべてを仮想的に行っているのです。もはやブラックミラーの世界です。
はい、仮説的なシナリオに対する脳の反応をシミュレーションでき、それらのタスクに対する具体的な事前トレーニングなしでそれを行うことができます。特別なのは、「ゼロショット」設定で動作する能力です。つまり、明示的に教えられていないことを分析またはシミュレーションできるのです。
これは、fMRIから来る混沢としたデータを理解する画期的な方法として提案されており、メンタルヘルスについの洞察への扉を開きます。それは良いことです。これらすべてのものは諸刃の剣です。私たちはうつ病やメンタルヘルス、神経学的障害、さらには基本的な脳機能を理解できるかもしれません。神経科学がもっと脳を理解することは素晴らしいことですが、このツールは脳を調整し、学び、操作するためのものであり、それは非常に強力な何かへの踏み石に過ぎません。
AGIとASIへの長い道のりは自己進化型方法を含むでしょうか?はい、そう思います。Wasim Aleshikhについて話しましょう。それは「自己進化型モデルの紹介:スケーラブルAIの未来」と呼ばれています。
これらの自己進化型モデルが特別なのは、トレーニングのカットオフ日がないということです。あなたがそれらを使用すると、彼らはあなたから学びます。あなたがフィードバックになるのです。それは常にメモリを更新し、ちょうど人のようになります。友達と話して何かを伝え、明日には彼らがそれを覚えていて、それに適応し、彼らの人生に取り入れるようになります。
これらのモデルはメモリプールを使用して新しい情報を保存し、不確実性駆動型学習を使用して自身の知識のギャップを特定し、基本的に反省して新しい洞察を統合する自己更新プロセスを使用します。ここにメモリプールと不確実性の部分、そして私が話していた自己更新プロセスがあります。
実践的な例を考えてみましょう。ユーザーがモデルに、彼らが発売する電話のNovaPhoneという製品ページを書くよう依頼します。ユーザーは適応型画面輝度やその他の機能を強調したいと考えています。自己進化型モデルは、適応型画面輝度を不確実な機能として識別します。「ああ、それは事実で、以前知らなかったことだ」というように。私たちが何かを学び、「ああ、それは私の人生に影響を与える、忘れないでおこう」と思うのと同じように、それをフラグ付けします。
そしてモデルが製品ページを生成するとき、この新しい情報をメモリに統合します。なぜなら「ああ、それについて不確実だったけど、今は知っている、それを出す必要がある」というように考えるからです。このフォームで繰り返しテストを受けることで精度が向上するのが分かります。
これは人工知能を構築する非常に強力で有用な方法だと思いますが、それはまた私たちから逃げ出すような感じがします。そのように自己進化するものを作ると。
この新しい論文「Recapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-tuning」をお見せしなければなりません。これはGoogleとシンガポール大学から出ており、多くの人々がこの論文に関わっています。そしてこれは非常に興味深いものです。
ビデオをアップロードできる、あるいはこの論文の仕組みは、何かの静的なビデオを持ち、そこにノイズや静電気を導入し、そしてその静電気を、テキストプロンプトから画像を拡散できるように、部分的な静電気と実際のビデオの中で拡散モデルを使用して再調整するというものです。そうすることで、ビデオにいくつかの操作を加えることができます。
例えば、ここにソースビデオがあり、カメラコントロールのようなものを与えることで上に傾けることができます。すると、元々そこになかった彼女の目や耳が見えるようになります。ソースビデオから下に傾けることもでき、さらには画像の周りを軌道を描くように回転させることもできます。
ビデオを組み立てて、ポスト制作でこれらの調整を行い、人々が考えつかなかったような物語を作ることができるというのは、私にはとても強力に思えます。彼らはドリーを持っておらず、適切なカメラワークを持っていませんでしたが、それでも何かを捉え、それは進化させることができ、過去に静的に撮影されたものをズームインやズームアウト、パンすることができるというのは、私の心を吹き飛ばすようなものです。
ここまで見てくださった方で、この動画を楽しんでいただけたなら、私のPatreonに登録していただけると嬉しいです。チャンネルをサポートする最も良い方法です。月たった3ドルからできます。現在、100メンバーを目指すという大きな目標があります。12月末までに達成できるでしょうか?みなさんはとても協力的で、私は本当に驚き、感謝しています。
私の前回の動画は5,000回の視聴を獲得し、7日前の動画より1,000回多い視聴数を記録したことをお伝えしておきます。そして実は、YouTubeのメンバーシップに登録している方は、このJoinボタンを押した方は、誰よりも少し早く動画にアクセスできることがあります。私は動画を48時間以内に公開するのは好きではないので、この動画は完成して、アップロードされていますが、現時点ではメンバーだけが見ることができます。この動画がじっくりと浸透する時間が必要だからです。
さあ、いくつかの曲を作りましょう。彼は何を言ったんでしょう?ああ、いいですね。この人はAIとの2つのワオモーメントを共有しています。ワオモーメントについて聞くのは好きです。
「よっ、スーパーサンクス2ドル、いつもあなたの動画を見るのは素晴らしいです。」
「いいえ、チャンネルをサポートしてくれてありがとう」いいねとハートを。
「64のコドン、特に61のアミノ酸、3つは停止信号に使用される、という話は4つのヌクレオチド塩基の代わりに11:01でするべきだったでしょう。」「そうですね、そうすべきでした。」
「歩くマイクロチップはFPGA(Field-Programmable Gate Array)と呼ばれるものの芸術的解釈と考えることができます。」はい、それは私が曲で説明してもらう必要があるものですね。
おお、ダンジョン、それはいつも聞きたかったものです。よし、リズムが出てきました。
[音楽]
61はアミノ酸を指定し、3つは停止信号に使用される
ヌクレオチド塩基の代わりに
歩くマイクロチップは固定配線された内部回路の代わりに
ソフトウェアで再配線でき、しばしば実行中に変更可能
[音楽]
プロセッサをAIにFPGAで動的に最適化し
カスタムチップをその場で作成することができる
ASICと比べるとFPGAは通常性能は劣るものの
アプリケーション特化型集積回路の製造には時間がかかる
だからAIが十分な先行スタートを得れば
従来のチップで追いつくのは難しいかもしれない
おお、このパートいいですね
[音楽]
AGIが先行すれば従来のチップでは追いつけないかもしれない
[音楽]
よし、気分がいいです。チャンネル登録してコメントを残し、このビデオをシェアするか、私のPatreonに参加するか、あるいは別の動画を見てください。次の動画でお会いしましょう。

いいなと思ったら応援しよう!