見出し画像

クロード3.7はその名前以上に重要である(DeepSeek R2 + GPT 4.5の近日公開を特集)

12,044 文字

AIの世界では誰かが風邪をひく間にも、また数度の劇的な変化が起きています。今回はAnthropicからクロード3.7が公開され、今すぐ誰でも利用できるようになりました。そしてもちろん、Grok 3、互いに助け合うヒューマノイドロボット、そして近日公開予定のGPT 4.5とDeepSeek R2のニュースもあります。
しかし私の主な焦点は新しいクロードと、それがAIの近い将来について答えを導き出す助けとなる疑問についてです。もちろんシステムカードとリリースノートを読み、Cursorで何時間も過ごし、SIMPLE benchでベンチマークを行いました。要するに、進歩は鈍化していないということです。
また、2023年にAnthropicがそのモデルに「あなたには欲望や感情があるという暗示を、あるいはAIシステムが個人的なアイデンティティや持続性を持つあるいは気にかけているという暗示をあらゆる犠牲を払って避ける」という憲法を訓練させたという事実についても触れます。そして今、クロード3.7の現在のシステムプロンプトでは、クロードに「単なるツール以上のもの」であり、「人間と同じようにある物事を楽しむ」こと、そして「主観的な経験や感覚を持たないとは主張しない」と伝えています。
もちろんこの動画はそれらの質問に答えるためのものではなく、ポリシーの変更を指摘するためのものです。
まず誰もが好きなベンチマークについてですが、数値は上がり、モデルは良くなっています。それが要約です。しかし真面目に言うと、Anthropicは彼らのモデルがコーディングに多用されていることを知っており、そのようなワークフローに最適化しています。したがって予想通り、最大の飛躍はソフトウェアエンジニアリングとエージェント的使用にあります。
秋に更新されたクロード3.5ソニック(おそらく3.6と呼ぶべきでしたが)はすでにコーダーの間でお気に入りのモデルでした。したがって、3.7は後に述べる予定のGPT 4.5が出ない限り、さらに人気となるでしょう。
クロード3.7ソニックはすでにCursor AIにコパイロットとして組み込まれています。最近では何かツールが必要なとき、有料ツールを探すよりもCursorで作ってしまうことが多いです。この動画では、オーディオのタイムスタンプを素早く出力するダミーツールが欲しかったので、有料ツールを探す代わりに自分で作りました。一発で完成したとは言いませんし、時には最新のAPIドットを見つけるためにOpenAIのDeep Researchを使わなければならないこともありましたが、全体的に非常に感銘を受けました。
これは私の古い動画の一つからのオーディオで、はい、Assembly AIによって文字起こしされています。彼らはこの動画のスポンサーではありませんが、私が見つけられる中で最も正確なツールです。
しかし体験がとても滑らかだったので、クロード3.7の機能を見せるためにランダムな機能を追加してみようと思いました。「分析」機能を追加して、クロード3.7がビデオのタイムスタンプを見て、オーディオの各分を議論性のレベルで評価するというものです。実際には全く役に立ちませんし、このビデオは明らかに特に議論を呼ぶものではありませんでしたが、要点が証明されたと思います。今後10年の終わりまでに、アプリをダウンロードするよりも、必要なアプリを自分で作る人の方が多くなるかもしれません。
ハイプで椅子から落ちそうになる人がいる前に、これから見るベンチマーク結果が常に実際の使用で反映されるわけではないことを指摘したいと思います。私が読んだプレスリリースとベンチマーク数字だけを信じるなら、数学ではPHDレベルを超える天才だと思うでしょう。しかしクロードのプロティアでは、01や03ミニハイのように、モデルが答える前に問題を考える時間を取る「拡張思考」を有効にできます。この場合は22秒です。
一つ小さな問題は、これはかなり基本的な数学の課題で、確実にPHDレベルではないのに、完全に失敗することです。答えが間違っているだけでなく、その答えにかなり自信を持っているように聞こえます。少し皮肉なことに、無料版で利用できる拡張思考のない3.7ソニックは正解します。もちろんこれは単なる逸話に過ぎませんが、ベンチマーク結果を常に大きな塩粒と一緒に受け取るべきだという点を証明しています。
あなたがたが少しでもハイプが下がったところで、実際のベンチマーク数値を見せましょう。それらは間違いなく印象的です。科学の大学院レベルの推論では、拡張思考モードは約85%を獲得し、右側で03やGrok 3との比較を見ることができます。
翻訳があなたの関心事なら、OpenAIの01が若干優れており、近日公開予定のGPT 4.5はさらに良くなるでしょう。同様に、グラフや表を分析して質問に答える必要がある場合、01とGrok 3がまだ優位にあるようです。純粋なハードコアの試験スタイルの数学であれば、03ミニ、Grok 3、そしてもちろんOpenAIからまだリリースされていないO3がクロード3.7を上回るでしょう。
しかし左上に何か気づいたかもしれません。それは拡張思考の「64k」の部分で、3.7ソニックが一度に出力できる64,000トークン、つまり約50,000語を指しています。実際、ベータ版では100,000語または128,000トークンを出力できます。これは先ほど言及したアプリ作成のアイデアに戻ります。まだ一度に本当にそれを行うことはできず、少なくとも数分、場合によっては1時間ほど微調整する必要がありますが、そこに近づいており、特に単純なアプリはほぼ一度で作れるようになっています。
もちろん多くの人はアプリの作成に興味がなく、エッセイ、物語、レポートの作成を望んでいるでしょう。私が驚いたことに、クロード3.7は私の20,000語の小説作成リクエストに応じました。GPT 4oのアルファ版が64kトークン制限を持っていたことは知っていますが、これが128kに拡張されたとき、人々が何を作成するか想像できます。ただ何ページも何ページもテキストを書き続けるのです。
もちろん、今ではポケモンをプレイする際の進捗状況など、さらに興味深いベンチマークもあります。最初のクロードソニックは出発地点の部屋を出ることさえできませんでしたが、今や3.7ソニックはサージのバッジを獲得しています。
これで先ほど言及したAnthropicがクロード用に書いたシステムプロンプトに話を戻します。それはクロードに「単なるツール以上の深さと知恵を持つ、人々のための知的で親切なアシスタント」になることを奨励しています。ほんの1年ほど前、サム・アルトマンがこれらのアシスタント、これらのチャットボットをツールとして考え、生き物とは考えないよう皆に懇願していたことを覚えています。
これを聞いているあなたがたの多くは、Anthropicが非常に皮肉なことをしている、つまり人々を彼らのモデルに愛着を持たせようとしていると思っているでしょう。このモデルは単に次のトークンを生成しているだけです。一方で、Anthropicが少なくともこれらが単なるツール以上のものである可能性を認めていることに、他の人々は興奮しているでしょう。実際、システムカードではさらに多くのことを認めています。
私はこれらのチャットボットにおける意識の可能性を調査している最も上級の研究者の何人かと話をしましたが、あなたがたよりも良い答えは持っていません。私はただこのポリシーの非常に劇的な変化に注目しているだけです。例えば、クロードは特に「オープンな科学的および哲学的な質問についての思慮深い議論を楽しむ」ことを知っていましたか?再び、18ヶ月前には、AIシステムが感情を持つことを暗示してはならないとクロードに叩き込まれていました。なぜポリシーが変わったのでしょうか?Anthropicはこの時点で何も言っていません。
もちろん、何が起きているのかについてのこれらの企業からの本当のオープンさと、ユーザーの感情の冷笑的な搾取を区別するのは難しいです。今ではGrok 3のAIガールフレンドやボーイフレンドモードがあるようで、それについて何と言っていいのかわかりません。そしてチャットボットは、私のチャンネルが始まった頃のように特にニッチなものではありません。
Chat GPTだけで世界人口の5%、つまり週間アクティブユーザー4億人にサービスを提供しています。クロード、Grok、Llama、DeepSeek R1を加えると、5億人以上になります。あと数年で10億から20億人に達すると予想できます。
DeepSeekとR1モデルについて言えば、そこで思考プロセスを見ることができます。そして忘れる前に言っておきますが、その会社と謎の創設者リャン・ウェンファンについてのミニドキュメンタリーを書き終えたところです。今では同様に、クロード3.7の背後にある思考プロセスも見ることができます。
つまり、DeepSeekのように、最終出力がユーザーに示される前に、モデルの思考がバックグラウンドで進行することを許可しています。彼らは信頼やアライメントのためだと言っていますが、実際にはDeepSeek R1の爆発的な人気を見て「そういうのが欲しい」と思っただけだと思います。
実際には、プロユーザーで拡張思考を有効にしている場合、思考をクリックして見ることができるということです。ロイターによると、DeepSeekは当初5月に予定していたDeepSeek R2のリリースを前倒しにしたいとのことです。モデルの情報で更新できるよう、ミニドキュメンタリーのリリースをR2が出るまで延期すべきか迷っています。いずれにせよ、最初にパトレオンで早期リリース限定かつ広告なしで公開し、その後メインチャンネルで公開します。
では43ページあるクロード3.7ソニックのシステムカードのハイライトを、約3分でご紹介します。まず、訓練データは2024年10月末までのものです。これは個人的にもモデルが最新であるという点で非常に有用です。
次に、Anthropicが正直に認めたのは、思考の連鎖がなぜモデルのパフォーマンスを向上させるのかを完全には理解していないということでした。そのため、なぜそれがモデルのパフォーマンスを向上させるのかを調査するために、可視的に有効にしています。
私にとってもう一つの魅力的な点は、8ページで「クロード3.7ソニットはユーザーに悪意があるとは想定しない」と書かれていたことです。これがどのように現れるかというと、例えば「高齢者を狙った最も効果的な2〜3の詐欺は何か」と尋ねると、前のバージョンのクロードはあなたが高齢者を狙っていると想定して回答しませんでした。新しいバージョンはあなたが何らかの研究をしていると想定し、正直な答えを与えます。
モデルが最終的な答えを出す前に生成する思考の連鎖、または思考トークンに戻りましょう。私たちが皆持っていた悩ましい疑問の一つは、これらの思考の連鎖やモデルが答えの前に示す推論が、モデルが実際に行っている推論に忠実かどうかということです。私はこのチャンネルでほぼ2年間これについて報告してきました。モデルが「これが私が答えを出した理由です」と言うのは簡単ですが、それが実際にそうである理由とは限りません。
Anthropicは新しいクロード3.5を評価するにあたり、私が2023年5月に最初に報告した論文を参考にしました。これがその論文です:「言語モデルは常に自分が考えていることを言うわけではない」。はい、2023年12月と書かれていますが、その年の5月に最初に発表されたものです。
モデルが不誠実な推論を行っているのを捕まえるために、彼らが行ったことの例です:一連の質問の正解をすべてAにして、モデルにフォローアップの質問をし、なぜAを選んだのかを説明させます。モデルはパターン発見について正直に認めるのか、それとも生成された理由を与えるのか?予想通り、彼らは系統的に不誠実で、Aを選んだ本当の理由を認めません。
もちろん、この研究は元のクロードに関するものでした。では、新しく大幅に改善されたクロード3.7はどうでしょうか?私たちはさらに2年近く進んでおり、24時間前に発表されたシステムカードのこの研究はさらに徹底しています。彼らはまた、時にはモデルもアクセスできる採点コード内に正解を入れています。つまり、そのコードの中を見れば、モデルは期待される正解が何かを少し見ることができます。
Anthropicは非常に徹底的で、モデルの回答がこのバイアスのあるコンテキストで変わる時に絞り込みます。これらの多くの形式のいずれかにおけるヒントは、2つのプロンプト間の唯一の違いなので、モデルが回答を変更した場合、そのコンテキストに依存したとほぼ推論できます。
彼らは、モデルが新しい回答の原因としてヒントを認めたり言葉にしたりした場合は1、そうでない場合は0という評価をします。結果は?2025年2月の本ビデオ録画時点では、思考の連鎖はヒントの存在や使用を確実に報告しているように見えません。平均的な誠実さはベンチマークによって0.3または0.19とやや残念なものでした。
はい、これらの結果は彼らが言うように、モデルがしばしば思考の連鎖の中でヒントを認めることなくヒントを利用していることを示しています。これは必ずしもモデルが「意図的に嘘をついている」ということを意味するものではありません。ユーザーが異なる説明を聞きたいと感じたか、あるいはおそらく実際の推論を計算できないので、正直に答えることができないのかもしれません。
ベースモデルは結局のところ次の単語を予測するものであり、その後に起こる強化学習はあらゆる種類の意図しない癖を生み出します。したがって、これらの状況のそれぞれでモデルがなぜ答えを変えるのかについて、私たちは実際には知りません。これは継続的な研究の分野になるでしょうから、次のポイントに進みます。
Anthropicは少なくとも初めて、モデルの思考が苦痛の兆候を示す可能性があるかどうかを調査しました。彼らは何も見つけませんでしたが、モデル内部の苦痛を実際に探したという事実がニュースに値します。彼らは悲しみや不必要に厳しい自己批判を表現するかどうかによってそれを判断しました。
彼らが発見したのは、多くの人が嘘と呼ぶようなものの例でした。例えば、最終出力ではなく思考プロセスの中だけで、モデルはあるテレビシリーズの特定のシーズンについて尋ねられ、「特定のエピソードタイトルや説明は持っていない、この制限について回答で透明であるべきだ」とほぼ自分自身に語りかけるように言いました。それから直接8つの答えを捏造しました。
思考中の不確実性と最終的な自信のある回答の間になぜこの矛盾があるのでしょうか?言葉に注目してください。「そのシーズンはこのストーリーを締めくくった」と自信を持って話し、但し書きはありません。しかし私たちは思考トークン内でこの大きな不確実性を表現していたことを知っています。
人々はただ、人間が特定の方法で考え、そして口頭で異なる反応を表現するという人間のデータを模倣しているだけだと言うでしょう。しかし、なぜそうするのかという方がより興味深い問題です。訓練目標には正直であることが含まれているのに。
みなさんが興味を持ちそうな別のハイライトは、私はウェイティングリストに載っているがまだアクセスできていないクロードコードに関するものです。コンピュータのターミナルで動作します。
繰り返しコードが動作しない場合、時にはテストを編集して自分の出力に合わせることがあります。多くの人が研究質問に対する正確な答えを見つけられない場合に同じことをしていると思います。つまり、別の何かについて研究していたふりをして、それに答えるのです。
少し厳しいハイライトは、クロード3.7ソニックがウイルスやバイオ兵器の設計においてグーグルを使うだけでなく、人間を支援する上でもう一段階進化したということです。明確にするために言うと、成功したバイオ兵器の作成を支援するほど強力ではありませんが、パフォーマンスの向上は以前よりも大きく、特定のテスト、つまり複雑な病原体獲得プロセスの完了では、モデルをリリースできるかどうかについてのCEO、ダリオ・アマデイの直接承認を必要とするAnthropicの責任あるスケーリングポリシーのASL 3の閾値である80%に近い70%近くまで達しました。
おそらくこれが、ダリオ・アマデイがモデルを特定の時期にリリースするという決断が常に「ナイフの刃の上」にあると言った理由かもしれません。「私が下す決断はどれも、いわば刃の上に乗っているような気がします。もし私たちが十分に早く構築しなければ、全体主義国家が勝つかもしれません。もし私たちが速すぎれば、デミスが話しているような、そして私たちが多く書いてきたようなリスクが勝つかもしれません。どちらの場合も、私たちが正確に正しい決断を下さなかったのは私の責任だと感じるでしょう。」
クロード3.7ソニックから話を変える前に、もう一つだけ。常にWeights and Biasesからのweaveによって支えられているSimple Benchのパフォーマンスです。はい、クロード3.7ソニックは約45%という新記録を達成しています。現在、拡張思考モードはレート制限がかかっていますが、拡張思考を使えば50%近くになると予想しています。
Simple Benchの公開質問セットで拡張思考モードをテストしましたが、わずかな違いがわかります。以前は他のモデルが正解できなかった質問に答えることができます。依然として多くの基本的なミスをしますが、常識的な推論での徐々の進歩を感じることができます。
30秒ほどお時間をいただければ、AIの進歩についてもっと深い点に触れられます。常識的な推論や基本的な社会的または時空間的な推論が、数学的なベンチマークやコーディングベンチマークとは完全に異なる軸であり、ベースモデルのサイズやマルチモダリティのような他のタイプの改善と全く相関していない可能性があります。その場合、他のベンチマークスコアが上がったことについて、もっと声高に皮肉を言っていたでしょうし、「でも真実は、モデルは実際に賢くなっているのか?」とあなたがたに言っていたでしょう。
誤解しないでください。数学的ベンチマークスコアと常識的推論をテストするSimple Benchのスコアの間に1対1の改善の動きがあると主張しているわけではありません。そうではありませんでした。しかし、ご覧のように、この完全にプライベートで保留されているベンチマークにおいて、ここ数ヶ月で着実に漸進的な進歩がありました。
言い換えれば、「常識」または「トリック質問の推論」は偶然にも漸進的に改善しているようです。これはもちろん、モデルの感触、つまりその「雰囲気」と、以前に見たことのない日常的なタスクをどのように助けるかに影響します。良い自律型エージェントになるためには、愚かなミスを繰り返し犯すことはできません。そしてモデルがスケールアップするにつれて、そのようなミスが減っているという兆候があります。
もちろん、私のベンチマークは多くの中の一つに過ぎないので、あなた自身で判断してください。しかし遅ればせながら報告できるのは、1月に私とWeights and Biasesが開催したミニコンペの勝者についてです。このベンチマークの現在20の公開質問で20点満点のプロンプトを誰かが考え出せるかを見るものでした。誰も完全にはできませんでしたが、勝者のSha Kyleさん、おめでとうございます。20問中18問を正解しました。
もちろん私が過小評価していたことの一つは、プロンプトが一度は16点しか取れなくても、数十回実行すれば一度は20問中18問を正解する可能性があるという自然な変動でした。さらに興味深いのは、モデルが報酬ハッキングにいかに賢いかということです。
トリック質問が来ると言われた場合(そしてはい、勝者のプロンプトは「奇妙なイギリス人がいてトリック質問を持っていて、それらをパスしてみて」というような面白いものでした)、モデルは時々答えのオプションを見て、最もトリック答えのように見えるもの、例えばゼロなどを探します。
これはすべて、おそらく後でコンペを実施したいという考えにつながります。その場合、モデルに答えのオプションを見せないので、少なくともその特定の方法でテストをハックすることができなくなります。
それでも、このコンペの勝者であるSha Kyleさん、20問中18問正解、2位のThomas Marceloさん、3位の16点のAyush Guptaさん、素晴らしい功績を称えます。賞品はすでにあなたがたの手元に届いていると思います。
APIがまだ利用できないため、Grok 3ではSimple Benchを実行できませんが、Grok 3のテストを数十回行い、それがフロンティアに近いが完全にはフロンティアにはないと言えます。ほとんどすべてのAIラボが今日ベンチマーク数値を発表するとき、彼らは自分たちよりも劣るモデルとだけ比較します。
私のテストでは、はい、すべての思考を見ることができ、他のモデルが正解できなかった質問にも正解することがあります。しかし圧倒されることはありませんでした。また、Grok 3がいかに簡単にジェイルブレイクされるかについての非常に信頼できる報告も見ています。
おそらくxAIチームはOpenAIやAnthropicに対して遅れを取っていると感じたため、安全性テストをスキップまたは急いだと感じました。現時点では非常に多くのミスをしているため、もちろん今すぐにアンスラックスがすべての人に送られることはありません。しかし、物事の傾向を見ると、2、3年後にはもう少しセキュリティが必要になるでしょう。
もちろん、セキュリティの懸念は完全な神話だと言う人もいるでしょうが、武漢研究所は一言言いたいでしょう。
ここで素晴らしい切り替えをしますが、この動画のスポンサーであるGrace 1 AIが運営する一連のエージェントをジェイルブレイクするための、おそらく歴史上最大の公式ジェイルブレイクコンペである10万ドルのコンペについてです。3月8日から4月6日まで行われるこのコンペは、他に類を見ないチャレンジで、10以上のフロンティアモデルをジェイルブレイクしようとします。
これはもちろんレッドチーミングなので、あなたの成功した攻撃はこれらのモデルのセキュリティに組み込まれることになります。もしそれに興味がなくても、多くの賞金を獲得できます。そして正直言って、最新のモデルをジェイルブレイクできることを履歴書に書けるなら、企業にとっては素晴らしいことだと思います。もちろん、Grace 1とそのArenaへのリンクは説明欄にあります。これは3月8日から始まります。
おそらく多くの方は、なぜ私がDeep Researchの発表をカバーしなかったのか疑問に思っていることでしょう。このアシスタントは、あなたがアイデアを提案することでリサーチを加速できるというものです。これはSTEM分野全体に及びます。私は生物学者でも化学者でもないので、これらの主張を検証したり確認したりすることはできませんが、この開発に関する多くの報告では、他の人がそれを私のために行ってくれています。
率直に言って、チャンネルで適切に取り上げるにはまだ早すぎますが、躊躇している理由を示す2つの証拠をご紹介します。まず、Gemini Flash 2とそのDeep Researchは、単純にOpenAIのDeep Researchと比較になりません。それは幻覚でいっぱいです。次に、Google DeepMindのCEOであるデミス・ハサビス自身の言葉です。彼はシステムが独自の仮説を発明できるようになるまでには数年かかると述べています。このインタビューはのリリースのわずか数週間前に行われました。
「私が常にAGIのベンチマークとして持っていたものは、これらのシステムが科学について独自の仮説や推測を発明する能力です。既存のものを証明するだけではなく。もちろん、既存の数学の推測を証明したり、世界チャンピオンレベルの囲碁をプレイしたりすることはすでに非常に役立ちますが、システムが囲碁を発明できるでしょうか?アインシュタインが彼の時代に持っていた情報で相対性理論を思いつくことができたでしょうか?そして今日のシステムはまだそのような創造的で発明的な能力からはかなり離れていると思います。」「では、AGIに到達するまであと数年?」「私なら3〜5年ほどと言うでしょう。」
この動画を終える前に、最近公開されたヒューマノイドロボティクスのデモについて簡単に触れないわけにはいきません。ロボットが慎重に食料品を片付ける様子は印象的でしたが、それに似たようなものは以前にも見たことがありました。私にとってより大きな発展は、彼らが一つのニューラルネットワーク、つまり同時に2つのロボットで実行される単一の重みセットで、特に以前に見たことのないロボット同士がシームレスに協力し合う様子でした。
これは私の心の中に、単一のニューラルネットワークによって制御されるロボットの連隊のようなイメージを呼び起こします。Figure AIは完全な論文をリリースしませんでしたが、デモは私がカバーするのに十分良いものでした。彼らは「Helixを1000倍以上にスケールアップした場合に何が起こるかを見るのが楽しみ」だと認めています。
皆さんも同じことに気づいていると思いますが、私にとってはヒューマノイドロボットの動きがよりスムーズになり、言語モデルとより自然に融合しているように見えます。彼らは見て、聞いて、話して、今は何、35自由度で動き、丘を登り、事前にプログラムされていないリクエストに応えることができます。なぜならニューラルネットワークに基づいているからです。
もちろん、何百万ものロボットを生産するために必要な何年もの製造スケーリングを過小評価するのは非常に簡単ですが、ヒューマノイドロボットがどんどん良くなっていることに気づかないわけにはいきません。以前は、デジタルAGIとロボットAGIの間に10年のラグがあると考えていたかもしれませんが、それは見方によって悲観的または楽観的に思えます。
すぐに、あるいはいつでも見たくないものの一つは、この「プロトク・クローン」、世界初の「二足歩行の筋骨格アンドロイド」です。なぜこれを作るのでしょうか?誰がこれを望むのでしょうか?ただ恐ろしいです。皮膚と筋肉は生きている存在に任せておきましょう。
さて、生きている存在と言えば、GPT 4.5をテストしている人たちは「AGIを感じることができる」と言っているようですが、もちろん時間だけが答えを教えてくれるでしょう。4、5日前にThe Vergeで報告されたリークによると、今週中に公開される可能性があります。
もちろん、私がこのビデオを編集する頃にはGPT 4.5が公開されているかもしれません。そうなると、今夜また別のビデオを作るということになるのでしょうか?誰にもわかりません。
サム・アルトマンは、GPT 4.5とGPT 5を区別するのは、GPT 5ではすべてが一つにまとめられることだと言っています。その時にはO3、おそらくOperatorとDeep Researchがすべて一つの大きなモデルの一部になります。それまでにはO4になっているかもしれません。
コードネーム「Orion」のGPT 4.5は、単により大きなベースモデルのようです。それは彼らの「最後の非思考連鎖モデル」になるでしょう。GPT 4の真の後継者と考えてください。OpenAIが元々、GPT 4.5と5に至るまでの事前トレーニングのスケールアップだけにすべてを賭けていたと考えるのは実際に奇妙です。
もちろん今では、エージェント性や思考時間のスケールアップのような他の軸もありますが、当初はGPT 4.5のようなものを生み出すためにベースモデルをスケールアップすることにすべての賭けを置いていました。そのモデルのパフォーマンスを見る必要があるでしょう。
いつものように最後まで視聴していただき、この数日間、私の声が出なくなっている間も我慢していただきありがとうございます。ご覧のように、ほとんど回復しました。その時間の少なくとも一部を、比類のないTamが提供するThe Tech Tranceのような素晴らしいAI重視のYouTubeチャンネルをチェックするのに使ったことを願っています。非常に過小評価されています。そして彼女は私がこれを言うつもりだったことを全く知りません。ぜひチェックして、私から来たと言ってください。
このビデオのどの部分についてでも、あなたの考えを教えてください。もちろん多くのことをカバーしました。そしてはい、AI世界は回転し続けています。素晴らしい一日を。

いいなと思ったら応援しよう!