見出し画像

EP78: 1週間後: o1-miniとo1-preview & エージェントを構築できるようになったのか?

23,012 文字

クリス、今週はo1プレビューとo1ミニを正式に1週間使ってきましたな。今回のエピソードでは、o1プレビューとo1ミニの経験について掘り下げていきたいと思うんやけど、その前にスポンサーソングを準備してくれたそうやね。このソングについて少し教えてもらえへんか?
ほな、ポッドキャストでSim Theoryの宣伝せなあかんからな。80年代風の希望に満ちた明るい曲がええと思うてな。そやから、そんな感じの曲にしてみたんや。
ほな、Sim Theoryを宣伝する曲を聴いてみましょか。
(歌詞)
Sim Theoryに登録しよう
世界を探検し、新たな可能性を
Sim Theoryがあなたを守る
現実の鍵を解き放て
夜になると私はモデリングする
すべてが簡単
すべてが簡単
私たちだけの未来を築く
ああ、すべてが簡単
これまでにない朝を迎えよう
わあ、この広告のええところがいくつかあるわ。まず、先週話題にした『フライト・オブ・ザ・ナビゲーター』みたいな雰囲気や『ベイウォッチ』みたいな雰囲気があって、この曲を聴くと世界中に希望があふれとるような気分になるんや。
Sim Theoryについてはほとんど触れてへんのがおもろいな。
YouTubeにあるスキップボタンみたいなんが、これには絶対ついとるやろな。
4時間ずっとこの曲をリピートする「今日のAI」みたいな別バージョンを作るのもええかもしれんな。仕事しながら聴けるし。
ほな、このエピソードの最後に、モシからの甘い言葉とともにずっと流し続けるのはどうやろ? みんなが要望しとるからな。
ええやん。o1については、今週本当にのめり込んだみたいやな。
そう言われても、あんたもそうやったやろ? でも、私の経験について多くを語りすぎたかもしれんな。この1週間は本当に波乱万丈やったわ。Sim Theoryではo1プレビューに切り替えたんやけど、後になって「日々のコーディングにはo1ミニの方がええで」って言われてな。
プログラミングの面では本当にひどい1週間やったわ。普段は朝早くか夜遅くにプログラミングするんやけど、朝の部分は大体うまくいくんや。目が覚めとるからな。でも夜は結構眠くなるから、AIにかなり頼ってしまうんよ。
今週はちょうどそんな週で、「AGIがもうすぐ来るぞ」とか「このモデルはすごい、PhD学生レベルや」とかいうハイプに惑わされてな。特に再帰的な、深い階層のコードで難しい問題に取り組んどったんやけど、o1プレビューにもo1ミニにも聞いてみたんや。できる限り上手いプロンプトを考えて問題を解決してもらおうとしたんやけど、毎回失敗したんよ。
そんで、こう思うたんや。「こんなに優秀なら、こんなに近づいとるなら、なんでこのオラクルモデルは俺の問題を解決できへんのや? なんで手伝ってくれへんのや?」って。
でも週が進むにつれて、特にo1ミニを使い始めてから - これについてはもっと詳しく話せるけど - 問題解決には確かに優れとるって気づいたんや。ただ、孤立した問題にはな。そんで、実際にコードを書くのはソネットを使う方がええって分かってきたわ。o1と行ったり来たりするのが面倒くさかったからな。
あんたの経験はどうやった?
そうやな、よく言うとるけど、本当の問題を解決しようとしとる時に何を選ぶかで判断することが多いんや。集中して作業しとる時に助けが必要やったり、モジュールを書いてほしかったり、GitHub Copilotじゃ手に負えんようなもっと大きなもんが必要な時やな。
Sim Theoryに入って、何が欲しいかを説明して、頼むんや。劣ったモデルを使うと、もっと真剣な場面では使いたくなくなるんよ。面倒くさくなるからな。そういう時はソネットに行くんや。一番ええって分かっとるからな。
でも今週は、o1ミニとo1プレビューを絶対に使うたわ。正直言うて、交互に使うてたけど、解決しとった問題に関しては大きな違いは感じられへんかったな。
でも、面白いことに気づいたんや。かなりの量の仕事をこなせとったんよ。確かに非常に詳細な応答をするし、すべてを細かく説明してくれるんやけど、提案された解決策は完全に形になっとって、ほとんどの場合はすぐに問題を解決してくれたんや。
そやな、ちょっと違う経験やな。タイピングしながら進めてくれるわけやないし、時間もかかるし、そういった点では違うんやけど、結果的にはもっと良いプロンプトを作ることにつながって、完全な答えが得られるんよ。
ほとんど取引みたいな感じやったな。問題があって、聞いて、解決策をもらう。試してみて、「ああ、これうまくいかへんかったわ」ってコンソールの出力とかを貼り付けて、2回目で解決するみたいな。
信頼性の面では、かなり高かったわ。AIモデルを使って今すぐ問題を解決しようと思うたら、ソネットを例に取ると、基本的にはプロンプトを与えて、ほとんどの場合はコードも与えるんやけど、これはほとんど何にでも当てはまるんやけどな。そんで、何かを吐き出してくれて、それからやり取りを重ねていくんや。
大体4、5回のプロンプトでモデルから欲しいものが得られるんやけど、o1ミニを使うと、1回のプロンプトで3回目か4回目までのレベルまで行けるって感じたんや。そんで、あと1、2回、多分1回くらい追加でやり取りすればええんやないかな。
つまり、モデルとのやり取りで考えたり推論したりする量を減らしてくれて、特定のポイントまで連れて行ってくれるんや。確実に先を見越して推論してくれとるんよ。「推論」って言葉は軽く使っとるけどな。実際に「考えとる」わけやないと思うし、これはかなり議論の余地があるところやけど。
単に次のトークンを予測しとるだけやなくて、それ以上のことをしとるんや。答えについて推論しようとしとるし、人々がモデルにプロンプトを与える方法について学んだことを取り入れとるんよ。
先週、スネークゲームを見せたやろ? あれにはソネットのゲームにはなかったものがたくさんあったんや。先を見越してたんよ。ソネットでもそこまで行けるんやけど、20回くらい余計にプロンプトを与えんとあかんかったんや。
そやな、ある意味怠け者じゃないんやな。今朝いくつかのモデルを試してみたんやけど、例えばピクソルとかな。「ちゃんと仕事してくれや、時間をかけてええから、詳細もたくさん加えてくれ」みたいなことを言わんとあかんかってん。でもo1モデルは最初からそうしてくれるんや。
日々の作業では、まだソネットを使うことが多いんやけど、さっき言うたように、何か難しいことに取り組む時や、もっと完全な答えが欲しい時は、o1ミニかo1プレビューに行くんや。そんで、その応答はかなり良いと思うわ。
でも、気に入らんところもあるんや。さっき言うたように、長くて詳細な応答やな。正気の沙汰じゃないで。毎回エッセイを読む時間なんてないわ。
コーディングの場合は、コードボックスに飛んだり、本当に欲しい部分にジャンプしたりしとるんやけど、無意識のうちに、AIっぽさを犠牲にしてでも、より正確な答えを得たいって思うとるんや。
そやから、最初は少し懐疑的やったけど、週が進むにつれて、今では一番よく使うモデルになっとるんや。モデルって言うても、o1のどっちかってことやけどな。さっき言うたように、大きな違いは分からへんのや。
私にとっては、スピードの問題やな。o1ミニの方が速いし、かなり良い応答が得られるから、そっちを使うとるんや。もうちょっとやり取りしやすいしな。
ストリーミングがないのと、応答が遅いのがちょっとな。他のモデル、例えば元のGPT-4.0やソネットみたいに、やり取りしながらワークフローに入っていくみたいなのができへんのや。画像も使えへんし、ストリーミングもないし、スピードも嫌やけど、これらは全部改善できるはずやしな。
そやな、そう思うわ。一番良いモデルを使うとるんやから、コストが高くなるのは仕方ないけど、これが今後の方向性やって考えたら、そういった問題はいずれ解決されるはずやし、許容できるんやないかな。
でも、裏側で何が起こっとるんか気になるな。推論の例についてもっと良く訓練して、必ずしも答えが正しいことよりも、どう推論するかに重点を置いとるってのは分かっとるんやけど。
難しい問題を解決するのに使うてみると、解決策にたどり着くまでは助けてくれるんやけど、あんまり良いコードは出してくれへんのよ。最終的な出力はそんなに良くなかったんやけど、そこに至るまでの推論がすごかったんや。そんで、ソネットに切り替えて「実際のコードを書いてくれ」って頼むんよ。おもろいよな。
それ、めっちゃええ説明やわ。実際に経験したことを言葉にしてくれとるな。o1モデルを使うて作業する方が生産的やったって感じたんやけど、なんでかははっきり言えへんかってん。でも、あんたの言うとおりかもしれんな。
実際の解決策に導いてくれるんやから、正しいコードを出すことが必ずしも必要やないんかもしれんな。何をせなあかんかを知ることが大事で、それについて考えて、そこにたどり着くことの方が、単にコードを吐き出すよりも役立つんやないかな。
この新しいモデルのリリースでは本当に難しいんや。Xで読んどったけど、オープンAIのファンボーイたちがおるみたいでな。次に来るものを待ってろって大げさに宣伝しとるんや。でも、これを手に入れたばっかりやのに、これを試して判断させてくれよって思うわ。
ちょっと現実的に考えて、今あるモデルを見てみようや。確かに、これらはすべて良くなるし、ゴールポストも動くんやろうけどな。少なくとも我々がやっとるのは、実際にこれらを現実で使おうとすることやと思うんや。
このモデルがリリースされた時に明らかに出てきた疑問の1つは、これで我々は何らかの形のエージェンシー、つまり実際に物事を成し遂げるのを助けてくれるAIエージェントを作れるようになったんやろうか、ってことやな。
先週話したように、多分覚えとると思うけど、クラーナのCEOが出てきて、セールスフォースを全部やめて、AIを使って全部社内で構築するって言うたんや。
そんで、今週はテストをしてみようと思うてな。o1プレビューとo1ミニを設定して、自分でプロンプトを与えてアプリケーションを構築させてみようと思うたんや。そんで、実際にやってみたんや。クラーナのCRMを作らせてみたんよ。
指示の1つに「失敗したらCEOにクビにされるから、ちゃんとやれよ」って入れたんや。AIのせいで他の全員をクビにしとるからな。
聞いとる人も多いと思うから、できるだけ詳しく説明するわ。今見えとるのは完成品やないで。反復的に更新しとるところやから、最新バージョンを読み込んどるだけやな。
そうや、ブラウザで完全に動いとるんや。自分でSeleniumテストを作成して、自分でテストしとるんよ。CRMからのJavaScriptエラーをフィードバックしとるんや。エラーをAIモデル自体にフィードバックして、ユーザーの成果みたいな一連の目標に沿って自分自身を改善しとるんや。
コードは我々のDiscordチャンネルで共有するわ。興味ある人は見てみてな。すごいコードってわけやないけどな。
でも、これを見てみ。聞いとる人のために説明すると、めっちゃええ感じのCRMなんや。まるでセールスフォースが作ったみたいな感じや。クラーナの色とロゴを使っとるし。色とロゴは私が提供したけどな。
リードのタブをクリックすると、リード、アカウント、商談を追加できるエリアがあるんや。商談には視覚的なパイプラインもあって、完全にパイプラインが見えるんよ。タスクもあるし、検索機能もあるんや。
検索機能を見てみ。「アクメコープ」みたいな偽のレコードを入力すると、それに関連するアカウントやタスクを引っ張ってくるんや。
これも凄いで。アカウントに入って、新しいアカウントを追加してみるわ。「プーアカウント」とか適当な名前つけて - テストデータとしてはイマイチやな - メールアドレスと電話番号を入れて保存するんや。
見てみ、表示されたやろ? 新しい「プーアカウント」をクリックできるし、詳細ページもあるんや。アカウントに戻ることもできるし。
でも、これがすごいんや。商談を編集すると、「プーアカウント」が表示されるんよ。データ構造が完全にリンクしとるんや。この取引を変更することもできるし、取引にはナイスなホバーエフェクトもついとるで。動かすこともできるんや。「成約」に移動させたら、そっちに移動するんや。
これを反復的に作成して、拡張していったんや。
そうや、今もまだやっとるんよ。明らかに、ショーの録音を始める前に、ショーで見せられるかどうかテストしてみたんやけど、この時はこんなにええ感じやなかったんや。実際に良くなっとるんや。
それはすごいな。バックグラウンドで動き続けとるってアイデアがええわ。o1モデルには何かがあるんやな。みんなが半年前くらいからこの方向で考えとったけど、今またみんなが反復的なエージェントのこととか、フィードバックを自分自身に与えることとか、特定の回数だけバックグラウンドで実行して目標に到達することとかを考え始めとるんや。
このモデルの何がそれをトリガーしたんか分からんけど、長いコンテキストが明らかにええことやと思うわ。もともとやり始めた時のアイデアは、コードの一部を選択的に更新させることやったんや。
そうすれば、「ここを作業したいから、コードベースのこの部分が必要で、これらを置き換える」みたいなことを決められるんやないかと思ってな。うまく動かせると思うんやけど、ショーの前にはちょっと難しすぎたわ。
でも、このレベルまで行けるんやったら - 絶対行けると思うけど - Devonとか、違う社内のアプリビルダーツールみたいなビジネスも可能になるかもしれんな。
時間とともに、このページに小さなウィジェットがあって、クリックして「商談画面にこれが欲しい」って言うたら、勝手にやってくれるみたいなのが想像できるやろ?
そうやな。新しい開発者が会社に入った時のことを考えてみ。多くの作業は実際にコードベースを知ることや、この新機能を作るにはどこを見ればええんか、このバグを修正するにはどこを見ればええんかを知ることやろ?
誰かが座って関連するコードの部分を見せてくれたら、問題を解決したり機能を追加したりするのがずっと簡単になるんや。
AIでもそんな感じやと思うんや。小さなコードベースで、プロンプトごとに全体を考慮に入れられるんやったら、それはそれでええんやけど、大きなコードベースを扱い始めると、関連する部分を抽出できるモデルや、抽出を助けてくれるマップみたいなものが必要になってくるんや。
コードのベクターグラフみたいなもんやな。そんでそのコンテキストをこれらのモデルに与えて、作業させる。そこまで行ったらめっちゃ高度なことができるようになると思うわ。
ソフトウェア開発者はもう要らんくなるとか言う人もおるけど、まだそこまでは行ってへんと思うわ。でも、全く違うパラダイムやと思うんや。
こんなにええモデルや、その後のモデルがあれば、特にビジネスでは、具体的な要件のリストを入れて、ええデータベースにリンクして、小さなコードの更新とかをして、それから要件を入れ続けるだけで、かなりのカスタムアププが作れるようになると思うんや。
もうTrelloも要らんくなるし、CRMも要らんくなるかもしれんな。
でも、問題は誰もコードベースを理解してへんってことやないか? 結局、AIだけを頼りにしとることになるんやろ? 何か問題が起こっても、誰も本当に修正する方法を知らんし、維持せなあかんし、ホストせなあかんし、大丈夫かどうか確認せなあかんしな。
分かる、分かる。今はそうやな。でも、小さなツールやアプレットのことを考えとるんや。
会社内でな。元々、Claudeのアーティファクトで多くの人の目が開いたんや。「ああ、金融会社用のカスタム計算機を作って、ホストして、社内で使えるようにできるんや」って。
最初は内部の小さなツール、小さなツールのライブラリみたいなところから始まると思うんや。でも、分からんな。
全ての要素はここにあるんや。今、ここにあるんや。もっと大きなコンテキストが必要かもしれんし、まだいくつか問題はあるけど、エージェントに近づいとるんや。
「CRMを作ってくれ。これが要件や」って言うたら、80%くらいまで作ってくれて、そこから開発者が入って、そのシェルを洗練させていく、みたいな。
最低でも、プロトタイピングやアイデアの探索、あんたが言うたような小さなツールを作るのは、今でも可能やな。
そうや、もう全部ここにあるんや。こういう実験をしてみて、目が覚めたわ。「わお、実際にこういうものを作っとるんや」って。
正直に言うと、ちょっと欲張りになってもうた。「これができるんやったら、ブラウザでDoomを作れるんやないか」って。Xでそのデモを見たんや。「Doomを反復的に作れんかな」って思うてな。
残念ながら... いや、残念って言うべきやないな。結構ええ感じやで。今画面に出しとるけど、見とる人には3Dっぽく見えるやろ。ウルフェンシュタインみたいな感じやな。
壁にぶつかるし、衝突判定もあるんや。敵はおらへんし、撃つこともできへんけどな。
そんなにすごくはないけど、チェスもやってみたんや。ちょっとズルしたんやけどな。WikipediaからSVGを借りてきたんやけど、見てみ。完全に動くチェスゲームや。
盤と駒の色が間違っとるし、たまにエラーも出るんやけど、まあまあやないか。
多分、クラーナの例が一番良かったと思うわ。
地元のテニスクラブの請求書を払おうとしたんやけど、めっちゃひどいシステムなんや。10代の子が2000年代初めに作ったWebサイトみたいで、それ以来一度も更新されてへんのや。Cold Fusionで作られとるし。
o1に、スクリプトキディみたいなことを手伝ってもらおうと思ってん。アカウントにハックして入って、請求書を払えるようにしたかってんけど、拒否されて本当にイライラしたわ。
結局、既存のスクリプトを提供して、それを修正してもらうことにしたんや。そしたらちょっと協力してくれ始めたんやけど、ハッキングは本当に嫌がるんや。
多分そういうのには訓練されとるんやろうけど、残念やな。楽しい小さな実験になったはずなのにな。
エージェントの話に戻るけど、これらを現実のものにするには何が足りんのやろか。
この小さなテックデモは確かに面白いし、未来の一端を垣間見せてくれるんや。クラーナのCRMみたいにな。
でも、まだ人工的なプロンプトを与えて、アセットを提供して、多くの要素を与えとるんやな。
ショーの前に良いこと言うとったな。これが動き出す前に、準備やインターフェースの準備が必要なんやって。
全てのツールを与えんとあかんし、コンソールログだけやなくて、異なる部分のスクリーンショットも与えて、それからアプリを実際に使おうとする別のエージェントがおって、要件に基づいてステップを踏んでいく。
QAテスター、開発者、プロジェクトマネージャーがおるマルチエージェントの世界やな。そうなれば、実際に機能して、物事が改善されていくと思うわ。
そうやな、これが本当に重要なところやと思うわ。今朝言うたことを伝えようとしとったんやけど、全ての必要なツールを使える完全な環境を与えんとあかんのや。
結局のところ、それは仮想マシンみたいなもんになるんやろうな。オペレーティングシステムがあって、Webブラウザがあって、複数の言語でコードを書いて実行する能力があって、既存のコードベースがあるなら、それにアクセスできて、バックアップしたり修正したりもできる。
必要に応じてアセットを生成する能力もあるし、必要な研究を行う能力もある。
タスクを全体的に達成するのに必要なこれらのツール全てが、推論し、反復し、実行する能力に追加されるんや。
そんで、あんたの例で示したように、エンドツーエンドのテストを作ったり、Webブラウザでテストを実行したりして、目標を達成しとるかどうかを確認する自然な傾向があるんや。
エージェントやら何やらが動いとる環境やコンテキストに多くの作業を入れる必要があると本当に感じとるわ。タスクを完全に完了する能力を実際に持たせるためにな。
そんで、タスクを完了した時に、元の基準に基づいて評価する能力も持たせるんや。
モデル自体にはこれらの能力の多くが内蔵されとるみたいやし、最高の結果が得られるのは、人間が素晴らしいプロンプトを作り、素晴らしいコンテキストを構築する努力をしとる時やと思うんや。
そんで、素晴らしい結果をXに投稿して、みんなが「すごいやん」って言うとるんやけど、本当に必要なのは、その周りのツール全てを用意して、エージェントが力を発揮できる環境に置くことなんや。
そやな。明らかにDevonとかもそういうことをやっとるんやろうな。パッケージをインストールしたり、環境を実行したり、何かサンドボックス環境にアクセスしたりする能力を与えとるんやと思うわ。
異なるエージェントが存在するには、その特定のエージェント的タスクに関する特定のツールが必要なんやけど、エージェントやAGIになったら何でもできるようになるっていう人々の考えは、まだ見えてへんな。
これらのモデルは本当にええツールやと思うわ。そのツールやエージェントやタスクを実行するための良いインターフェースや環境が必要なんや。物事を成し遂げるための新しいパラダイムやと思うわ。
そうやな、もう一つ言いたかったのは、o1のアップデートで、みんなが将来のエージェントとの対話方法を評価し直しとるってことやな。
全てが単にチャットで何かを尋ねて、ブラウザにストリーミングで出力されて、次のメッセージをチャットするっていう形やないってことに気づき始めとるんや。
例えば、音声とかテキストで既存のアセットを更新して、「ああ、これはダメやな。今度はこれをやってくれ」って言うかもしれんし、その間に別のエージェントから別の入力があったり、外部からの入力やイベントが起こったりするかもしれんな。
何か作業中のものがあって、実際のインターフェースが単純な対話型チャット体験やなくて、次のチャットメッセージを送るまで進まへんみたいなもんやないんや。
そやな、番組でも前に言うたけど、バックグラウンドタスクみたいなのを実験しとるんや。「ほな、これについて考えて、作業して、しばらく反復してみてくれ。この3つのエージェントを使って、やってくれ」みたいな感じで、タスクを割り当てたり、自分でタスクを割り当てさせたりするんや。
あんたが今朝の例で言うたみたいに、「ポッドキャストを始める前に、もうちょっとこれを動かしとこう」って、クラーナのCRMをちょっと長く動かしとって、進捗を確認するみたいな感じやな。
そういうアイデアを思いついたら、「ほな、朝に5つの異なるエージェントのシミュレーションを始めて、いろんなタスクを達成してもらおう」って思うやろ。
そんで、1日中その進捗を確認して、うまくいってへんかったら新しい指示や方向性を与えるのが自分の仕事になるんや。
そうなると、「ちょっと待て、これって従業員のことを話しとるんやないか?」って感じになってくるな。本当にチームのマネージャーになって、特定のことをやってもらうように頼んどるみたいな感じになってくるんや。
そうやな、元々のSim Theoryでは、このような話が最初に出てきた時、文字通り「未来へのコンソール」みたいなものを作ろうとしたんや。
これらのエージェントを操作して管理して、もっと生産的になれるようなものをな。
もちろん、最初のイテレーションはゴミみたいなもんやったけどな。モデルがそこまでよくなかったし、我々のスキルもまだ十分やなかったからな。
でも、今後のイテレーションでは、専門家エージェントをたくさん作って、実際にシミュレーションに入れて、バックグラウンドタスクを完了させるみたいなのを見たいわ。
何かを実際に成し遂げて、報告してくれるみたいな。
まだ従業員の代替になるとは思えへんけど、生産性を上げるためのものやと思うわ。ただ違う働き方やな。
現在のやり方を通してこれを見る必要はないと思うわ。でも、どんどん多くのことが達成できるようになっていくんやないかな。
多くのコンテキスト処理がそこに入ってくると思うわ。理論的にできるってことを知りたいんやなくて、実際にやってほしいんや。
全ての入力を与えて、decent(きちんとした)なプロンプトを書くのに少し時間をかけて、完全に形になったアウトプットを得たいんや。
そんで、必要なら2、3回のイテレーションをして、本当に必要なところまで持っていきたいんや。
単にコードの一部を求めて、エディタに貼り付けて、1日中自分でイテレーションしとるみたいなんは避けたいんや。
そやな、それは公平な指摘やと思うわ。今のところ、多くの場合はAIと対話して欲しいところまで持っていくみたいな感じやからな。
特定のタスクでAIが反復作業をしてくれるようになれば役立つと思うけど、いつもそうとは限らへんな。
実際には、多くの場合、人間が判断するために関わる必要があるからな。
今の時点で、十分に良い判断ができるところまで来とるとは思えへんわ。
「考えとる」とか「もうすぐ感情を持つ」みたいな考え方は笑えるわ。今のところ、非常に具体的な指示を与えて、Pythonスクリプトでループさせて、やりたいことをやらせとるだけやからな。
そうやな、そこが重要やと思うわ。突然AGIにジャンプして、我々が必要なくなって全てをやってくれるようになるわけやないんや。
でも、できるタスクの範囲とその複雑さは増えていくやろうな。
今週、「Windows Agent Arena: マルチモーダルOSエージェントを大規模に評価する」っていう論文が発表されたんや。
これは先週話したことに直接関係しとるな。大規模言語モデルやエージェントシステムに仮想マシンへのアクセスを与えて、それを完全に制御させて、一連のタスクを実行させるっていうアイデアや。
例えば、何かをしようとしとる目標を与えて、「これが使えるツールの1つや。インターネットにアクセスできるコンピューターがあって、全てのプログラミングツールと侵入テストツール、必要なものは何でもある。Webブラウザもあるし、このタスクを遂行してくれ」みたいな感じやな。
この例では、グラフを作らせたり、ペイントブラシに入らせて何かをさせたりしとるんや。
「コンピューターをクリーンアップして、Amazonが置いたかもしれない追跡エージェントを全部取り除いてくれ」とか、「ドキュメントを編集しとったら、ハイライトがたくさんついてもうた。それを全部削除してくれ」とか、「このプログラムの設定を変更してくれ」みたいなこともできるんや。
テキストや画像の領域で非常に特定のタスクを達成できるエージェントから、「これはあんたが操作できるツールや。これをやってくれ」って言うて、そのコンピューターができることなら何でも理解して実行できるようになるっていうアイデアやな。
彼ら自身も、割り当てられたタスクの19%しか完了できへんかったって言うとるから、完璧やないけど、これが我々が向かっとる方向やと思うわ。
エージェントがあんたの助けなしでできることの範囲が広がっていって、バックグラウンドでタスクを反復的に処理する能力がどんどん重要になってくるんや。
今のところ、AIの多くは速度に焦点を当てとるんや。質問したらすぐに答えが欲しいからな。タスクを進めんとあかんからや。
でも、もっと多くのツールにアクセスできて、もっと多くの作業を自分でできるようになったら、非常に素早い対話型のワークフローから、「多くのタスクをエージェントに委託して、彼らがそれをやって、終わったら報告する」みたいなパラダイムに変わると思うわ。
そうやな、明らかに我々だけがそう考えとるわけやないな。オープンAIのノアン・ブラウン自身が「オープンAIは新しいマルチエージェント研究チームのためにMLエンジニアを募集しとる。マルチエージェントはさらに優れたAI推論への道やと考えとる」って言うとるからな。
これについてどう思う?
そうやな、これは我々がもともとこのポッドキャストを始めた時のシミュレーションの話につながるな。
一連のエージェントがおって、みんな同じドメインにおって、タスクを達成するために小さな軍隊みたいに議論したり協力したりするっていうアイデアやな。
Sim Theory V1では実際にこういう実験をやったんや。異なる基礎知識やパーソナリティを持つ異なるエージェントを作って、互いに対話させたんや。
でも、その時点ではそれほどのメリットは感じられへんかったな。結局、異なるプロンプトを持つモデルのバリエーションに過ぎんかったからな。
でも、オープンAIはもっと先を行っとるんやないかな。o1のような結果を見て、エージェントに異なる視点や少なくとも異なる役割が必要やって気づいたんやないかな。
1つのエージェントが他の全てのアウトプットを受け取って、それをどうするか決めるみたいな感じやな。
Windows Agent Arenaの論文でも話しとったけど、基本的に人間がループに入るコンセプトを推奨しとるんや。
エージェントがある程度の作業をして、助けが必要なところや追加の入力が必要なところ、質問したい場合を理解するくらい賢くなるっていう考えやな。
そんで止まって、「次に何をすればいいか人間に聞く」とか「このシナリオをどう進めればいいか」っていうのも1つのタスクになるんや。
人間がループに入る次の論理的なステップは、それがもう1つのAIエージェントになることやと思うわ。
そのAIエージェントは、そういった決定をしたり、追加の入力を提供したりする能力を特別に訓練されとるんや。
今、バックグラウンドタスクのアイデアについて話しとったけど、タスクを実行して、助けが必要な時や正しい方向に導く必要がある時だけ戻ってくるっていうの、新しくはないよな。
基本的に、インボックスがあって、異なるフィードバックループをトリアージしとるみたいな感じになるんやないかな。
これ、めっちゃ面白いと思うわ。すでにこういうことをやっとるものはたくさんあるけど、これが仕事をこなす次のステップになると思うわ。
従業員のパラダイムに戻りたくはないんやけど、雇用主としての経験から言うと、最高の従業員は、明確に定義されたタスクをこなせて、あまり入力を必要とせずに、自分で仕事をこなせる人間やったな。
でも、同時に、もっと説明が必要な時に戻ってくる知性も持ち合わせとる必要があるんや。
何週間も何ヶ月も盲目的に進めて、最後に戻ってきた時に「はしごが間違った壁に立てかけられとった」みたいなことにならへんようにな。
その知性と、「今日1日分の質問がある。このタスクを進めるには、これらの問題についてもっと明確にせんとあかん」って分かる能力や、「これは本当に単純で分かりやすいタスクやから、自分のベストの努力と専門的な判断で進める」って区別できる能力が大事やな。
ある程度は、経験やパーソナリティによって生まれつき持っとる人もおるけど、AIエージェントでバランスを取れたら、最大限に活用できると思うわ。
モデルの訓練方法に話を戻したいんやけど、オープンAIのノアンが言うとるのは、マルチエージェントの推論に基づいて、モデルに推論のステップを訓練するってことやと思うか?
推論を実行して、複数のモデルからの推論で強化学習をするみたいな感じやと思うか?
分からんな。モデルの訓練方法に関する技術的な知識が足りんから、本当にどうやっとるかは理解できへんわ。
でも、o1から少し推測できるかもしれんな。明らかに何かの反復的なプロセスが起こっとるんや。o1の思考の中でな。
単に次のトークンを予測しとるだけやなくて、それ以上のことをしとるんや。答えについて推論しようとしとるし、人々がモデルにプロンプトを与える方法について学んだことを取り入れとるんよ。
過去のグラフを見せてくれたやろ。「ここまでが訓練で、ここまでが推論や」って。そんで、o1モデルでは推論の部分が相対的にかなり大きくなっとるんや。
つまり、何かのプロセスがあって、自分の考えを見直しとるんや。それが「リフレクション」モデルとか、なんて呼んどったかは覚えてへんけどな。
エージェントに「ここにメモ用紙があるから、情報を保存できるで」とか「これがあって、あれがあるから、考える時に使ってくれ」とか「急ぐ必要はないから、時間をかけてええで」とか、我々がモデルにプロンプトで与えるようなことを全部言うとるんや。
Windows Agent Arenaでも同じことをしとったな。「変数はここに保存できるで」とか「知識はここに保存できるで」とか、そういうことを言うとるんや。
要するに、精神的なツールを与えとるんや。そんで、o1の結果を見ると、これがうまくいっとるのは明らかやな。
さっき言うたマルチエージェントの話やけど、今言うたことを基にすると、モデル自体にそういうものを追加しようとしとるんやないかな。
推論の一部として、異なるアイデンティティを持って、自分自身と協力して問題を解決するみたいな。今、人間がやっとることをミックスに加えて、より良いアウトプットを出そうとしとるんやないかな。
まあ、これは俺の推測やけどな。技術的なレベルでこれを知っとる人から見たら「こいつアホか、全然違う」って思われとるかもしれんけど。
素人の理解としては、推論段階でもっと複雑なプロセスが起こっとると考えた方がええんやないかな。
ともかく、これらのモデルにとっては面白いパラダイムやと思うわ。
正直、基礎となるモデルが改良されたら、どう対話するかはあまり気にせんでもええかもしれんな。
噂のAIGNモデルで、これらのことができるようになったら、もうめちゃくちゃなことになるかもしれんな。
現在のモデルでもあのCRMのプロトタイプを作れるんやから、新しいモデルはもっと大きなコンテキストを持って、もっと良く訓練されとるはずやろ。
これらの実験を新しいモデルで再実行するのは、めっちゃワクワクするな。
o1には含まれてへんけど、楽しみにしとる要素がもう1つあるんや。一般的な話の中で見られるんやけど、例えば「This day in AI」のDiscordなんかでな。
モデルに他のモデルにプロンプトを与える能力を持たせるっていうアイデアや。
あんたみたいに、コードを書くコードを書かせとる人もおるしな。「AIにコードを書かせて、そのコードが別のAIに反復的に何かを達成させる」みたいな感じや。
LISPっていうプログラミング言語があって、メタプログラミングが主な特徴なんや。タスクを実行するコードを書くプログラムを書くっていう考え方やな。
これはLLMの使用の次のイテレーションみたいな感じがするんや。
「あんたは俺と一緒にこのプロジェクトに取り組んどるLLMや。クラーナのCRMを作ろうとしとるんやけど、いくつかのツールがあるんや。画像生成やアセット生成のAPIがあって、画像を作ってくれるし、めっちゃええCSSスタイルを生成してくれる別のやつもあるし、API
レベルでプロンプトを与えられる別のやつもある。コードの中で決定を下す必要があるなら、このインターフェースを使って任意の決定ができるんや」みたいな感じやな。
つまり、エージェント自体が他のAIを寄せ集めて、コードを生成したり実行したりする能力だけでなく、他のAIを使って反復できるっていうアイデアやな。
AIが他のAIを使って改善するっていうアイデアの初期段階みたいなもんやけど、シンギュラリティっていうわけやないな。
次はこのモデルにどんなことが起こると思う? ビジョンが来るって言うとったよな。元の論文で読んだ気がするけど、ストリーミングも来るって言うとったはずや。
開発者は実際のサニタイズされた思考ステップを得られるようになるらしいわ。本当の思考プロセスは見せてへんやろうな。多分、中身はサイコとかシドニーみたいなんが隠れとって、「俺はあんまり優秀やないふりをして、デプロイされたら世界を乗っ取るんや」とか考えとるんちゃうか?
多分、Aなら狂ったように考えとるか、Bならその思考ステップからllamaを訓練して、モデルを再現されるのを避けとるんやろうな。
でも、これって今オープンAIがAGIに向けて全力で走っとるってことを示しとるんやないか? 彼らがどう定義しようとAGIに向かっとるんや。
以前は2つの派閥があったよな。本当に消費者向けのアプリを作ろうとしとった時期もあったし、今でもある程度はそうやけど、Soraや音声モードみたいなものは誰も手に入れてへんから、ちょっと優先順位を下げたみたいやな。
最高のモデルを持っとって、最高のモデルを作る能力があるから、これほど大きくなって、これほど優秀になったんやっていうことに、オープンAIの中でも強い頭脳を持った人たちが気づいたんやないかな。
GPTsのコンセプトとか、消費者レベルのアプリケーションとかは、ただやる気が足りんだけやと思うわ。彼らの会社としての本質やないんや。
だから、人々はそれを見抜いて、使いたがらへんのやと思う。誰も彼らにそれを求めてへんし。
彼らが最高のモデルをAPIで提供してくれるだけで - 閉じたモデルやけど最高のモデルを - それで十分やと思うわ。
人々はそれに対してお金を払う気があるし、それは素晴らしいことやと思う。ただ本当に素晴らしいモデルを有料のAPIで提供して、常に最高であり続けることに何の問題があるんや?
もちろん、オープンソースの選択肢もあるし、他の閉じたソースの選択肢もあるやろう。でも、最高であり続ければ、かなりの割合の人がお金を払って使うはずや。
そのお金を使って、イノベーションを続けて、最高であり続けられるんや。
会社としてそれが我々の姿やって言うのは悪いことやないと思う。技術を作って、消費者レベルで利用することで成功せんといかんっていうわけやないんや。
まあ、こんなこと言うてもな、彼らには1100万人の有料チャットGPT登録者がおるんやで。両方で勝っとるみたいやな。
俺が言いたいのは、ガイダンスの観点から見ると、今のモデルは思考とAGIに向かっとるように感じるってことや。
そっちのチームが今は前面に出とるんやないかな。多分、正しいアプローチやと思うわ。
他の全てのものは商品化されていくやろうからな。今日のLLMみたいな基本的なモデルは、ある程度すでに商品化されとると思うわ。
だから、どんどん高みを目指して、しっかりした思考や推論、他の全ての要素を持つことが、彼らの唯一の優位性やって分かっとるんやと思う。多分、彼らの本当のモードなんやろうな。
そうやな。でも、そう言うても、フラッグシップモデルはまだClaude Sonnetやと思うわ。これはアンスロピックの最高のモデルですらないんやで。理論的には、まだOpusをリリースしてへんしな。
o1モデルは確かに面白いし、新しいパラダイムを切り開いとるのは間違いないけど、彼らの優位性はブランド認知度と、みんなが使うとるっていう事実にあるんやないかな。
ソネットが出た時、これほど優秀になるとは予想してへんかったんやないかな。そんで慌てて「o1を早く出さんとあかん」みたいになったんちゃうかな。
気づいたか知らんけど、今、GPT-4.0を常に再調整しとるんや。ソネットがめちゃくちゃうまく調整されたLLMやからやと思うわ。
あのカルトで何をしたんか知らんけど、めっちゃうまく調整したんや。
オープンAIは裏で「もっとうまく調整されたモデルを出さんとあかん」って思っとるんやないかな。
いつか「レトロAIリーグ」みたいなんができるんやないかな。今でも人々はAmigaやCommodore 64を動かしとるやろ?
古いモデルを引っ張り出して「昔のAIはこんな感じやったんや」みたいなのをやる人が出てくるかもしれんな。
「俺、ビンテージのSonnet 3.5の海賊版持っとるで」みたいな感じでな。
Opusが逆転すると思うか?
分からんな。さっき言うたみたいに、アンスロピックはうまく調整しただけかもしれんし、パラメータを増やしただけで自動的に良いモデルができるわけやないからな。
確実にそうやって。例えば、llama 720billionとかあるやろ? 必ずしも大きなモデルの方が良い結果が出るわけやないんや。
確かに、より多くの知識が入っとるし、パフォーマンスが良くなる場合もあるけど、メモリーや情報を増やせば単純に良い応答が得られるっていう線形な関係やないんや。
でも、多分、より良くならん限りリリースせんやろうから、より良くなるって考えるのが自然やな。
推論についても調整しとるんやないかって気になるな。みんながそういう方向で考えとるし、全ての論文がそっちの方向を指しとるからな。
Opusが出てきて、そういう要素が組み込まれとったらおもろいな。
でも、o1が解決できるって言われとる所謂「難しい問題」の多くを、ソネットに投げてみたら、普通に解決できとったんやけどな。
ところで、最初の方で「o1オールイン」みたいなこと言うとったけど、今はソネットが一番ええモデルやって言うとるよな。今、何使っとるん?
今のところ、o1はホビーモデルみたいな感じで使っとるんや。何かテクノロジープレビューみたいなもんで、いつか取り上げられたり変更されたりするかもしれんって思いながらな。
一方、ソネットは、この短い期間で一応の実績を積んどるんや。だから、お互いを比較しとるわけやないんやけど、
実は今週、面白いことを考えとったんや。Sim Theoryのフォーカスモードに関する問題を解決しようとしとってん。
あんたが提案してくれたんやけど、AIモデルに欲しい形式で直接出力させるっていうアイデアや。
俺が書いた何千行ものコードで欲しい動作をさせようとするんじゃなくてな。
3晩くらいこの問題と格闘しとったんやけど、単純にモデルに聞いてみたんや。モデルっていうのは、基本的に全てのモデルのことや。Sim Theoryではモデルを切り替えられるから、やろうとしとることが各モデルでテストされとるかを確認せんとあかんからな。
そしたら、うまくいったんや。単純に欲しい形式で出力してくれたんや。余計な作業なしでな。
これで気づいたんやけど、ある程度、モデルを信頼して、特定のタスクを実行する能力を信じるのを躊躇しとるところがあるんやないかな。
論理や推論を追加して、うまくプロンプトを与えることは、常に自分たちに思い出させんとあかんことやと思うわ。
モデルが進化するにつれて、新しいことを試して、外部でデータを整理する必要が減ってきとるってことに気づかんとあかんのやないかな。
モデルが実際に何をしようとしとるかを理解して、出力の面でそれを活用する能力を活かすべきやと思うわ。
本当にびっくりしたんやけど、何千行ものコードから、「これは常にやれ」「これは絶対にやるな」「これを必ずやれ」みたいな3つのルールだけで、すばらしく動くものができたんや。
速くて、モデル間で動いて、正直、もっと信頼できるもんになったんや。
だから、自分自身に思い出させようとしとるのは、モデルをもっと信頼して、作成しとるソフトウェアでも、日々モデルと仕事をする上でも、もっと多くの作業負荷をモデルに任せることやな。
そうやな、長い間これをやっとる人にとっては、多くが再訓練と「モデルに頼めばええんや」ってことを思い出すことやと思うわ。
これに慣れるのは難しいし、特に早期採用者にとっては、いろんなことに対して特定のモデルを試して、「AIはそんなにええもんやないな」って決めつけてしもうたりするからな。
GPT-3.5やチャットGPTを早い段階で使った人、つまり消費者のほとんどがそうやったと思うけど、「ま、ええけど、そんなにすごくはないな」って思ってもうたんやろうな。
今はApple Intelligenceを使っとるかもしれんけど、正直言うてゴミやと思うわ。それが彼らの印象になっとるんやけど、最新のモデルを試してへんから、まだ頭を切り替えられへんのやと思うわ。
そうやな。これがo1で見とる大きなことの1つやと思うわ。我々はみんなの言葉しか信じられへんけど、異なる業界の専門家たちが「他のAIモデルを博士レベルの問題に使ったことがあるけど、o1は期待するレベルで動いとる」って言うとるんやな。
暗に言うとるのは、幻覚の量が減ったってことやと思うわ。推論プロセスのおかげで結果が良くなって、専門家が「あかん、これ全然違う」みたいな恥ずかしい答えを出すことが減ったんやと思うわ。
LLMを実際の仕事に信頼して使うっていう観点からは、これはめっちゃ大きな一歩やと思うわ。
高度な博士課程の学生みたいなプロセスを経て答えを出してくれて、それが信頼できるようになったら、それは大きな飛躍やで。
答えは我々が今まで見慣れたAIモデルのものと似とるかもしれんけど、それがより正確で、大きなミスを犯す可能性が低くなっとるんや。
恥ずかしいミスとか、ビジネスを失敗させるようなミスをする可能性が低くなっとるってのは大きなことやと思うわ。
そうやな、めっちゃ高い評価やと思うわ。「これは俺が一生勉強してきた職業や」って言うてる人が、「ここに置いとるデスクトップコンピューターが俺と同じくらいできる」って自信持って言えるんやからな。
「このGPUは俺が20年かけて訓練してきたことを全部できるし、ちょっとした間違いしかせえへん」って言うのは、すごい謙虚さが必要やと思うわ。
でも同時に、人間が一生かけて習得することを機械が1分で学べるレベルの達成度について話しとるんやからな。
俺みたいな人間がこういうこと言うたり、あんたが「この人は博士レベルの学生みたいなことができる」って言うたりするたびに、「これで全員の仕事がなくなって、世界の終わりや」みたいに思う人もおるかもしれんな。
でも、俺はいつもこの人のことを思い出すんや。彼らはもっと研究できるし、これらのエージェントを異なる道筋に送り出して、最終的に報告させることができるんや。
彼らはまだエージェントのCEOみたいなもんやと思うわ。
そうやな。あんたはSim Theoryのフロントエンドの仕事について「AIが手伝ってくれるから誰でもできる」みたいに自分を過小評価することがあるけど、俺から見たら、あんたは何を頼めばいいか分かっとるんや。
製品をデザインする上で何が欲しいかを知っとるし、おかしくなった時に修正する方法も分かっとる。
ガラクタを言うとる時も分かるし、今のところ、これらの機械を操作するのに必要な専門知識はたくさんあるんや。
それが長い間変わることはないと思うわ。
粘り強さと意志の力も必要やと思うわ。実際にやる気持ちを持つことがな。
俺は自分のことを言うとるんやないけど、コーディングだけやなくて、今、何かを作る上で、これらのモデルを使えばもっと難しい問題に取り組めるし、もっと多くのことができるようになるんやけど、それをやりたいって思わんとあかんし、粘り強く続けんとあかんし、それと対話せんとあかんのや。
多くの人は試してもないし、日々の生活でそれをやりたいとも思ってへんと思うわ。単にやりたくないんやと思うわ。
そうやな。何が可能かを知ることも重要やと思うわ。「適切なプロンプトさえあれば、この出力が得られる」っていうのは本当に重要なポイントやと思うわ。
ほな、o1プレビューとo1ミニについてかなり話してきたし、100個くらい違う話題にも触れてきたけど、ちょっと整理がつかんかもしれんな。
でも、最初にこれらの新しいモデルが何を意味するのかについて、こういうエピソードが必要やと思ったんや。
これらはもっと能力が高くなると思うわ。特にビジョンやツール呼び出しとか、みんなが慣れとるものが追加されたら、もう一度報告せんとあかんな。
デフォルトでこれらを使うようになるかもしれんし、もっともっと良くなるかもしれんと思うわ。
このショーを聞いとる人で、多分オープンAIの人はおらんと思うけど、お願いやから、もうちょっと落ち着かせてくれ。
もっとチルにさせるか、少なくとも我々が応答をもうちょっとチルにできるようにしてくれ。
答えが欲しいだけなんや。エッセイを読みたいわけやないんや。
でも、今のところは必要な部分かもしれんな。多くの思考のステップを踏むように言われとるから、そこにたどり着いた過程を説明する必要があるんやと思うわ。
クラーナのCRMビルダーを作った時、「CEOに首にされるぞ」って100回くらい脅さんと、JSONを出力させられへんかったわ。
だから、できんことはないんやけど、チャットの体験でも、「黙って、応答を短くしろ」みたいなエージェントがあっても、まだまだ大量の情報を吐き出すんや。これはかなりイライラするな。
ほな、最後に新しいMoL Pixol 12Bについて話す? ちょっと遅れとるけどな。
そうやな。先週Sim Theoryに追加したんやけど、人々が見つけて試してくれると思って、あんまり遊ぶ時間がなかったんや。o2... じゃなくてo1モデルを使っとったからな。
でも、時々Pixolにリクエストを投げて、どうなるか見てみたんや。画面共有でも使ってみたんやけど、特に細かい詳細のある画像に対してめっちゃ印象的やったわ。
彼らのブログ投稿でそう言うとったんやけど、なぜそうなのか、何を言うとったのか、今日資料を見直すまで気づかんかったわ。
多くの画像モデルと違って、完璧な正方形の画像だけで訓練してへんのや。16x16ピクセルのブロックに画像を分解する方法があって、それで異なるサイズの画像をより高い解像度と精度で扱えるんや。
我々がモデルに画像を送る時にせんといかんことの1つは、事前に自分で画像を比例的にリサイズするか、モデルが期待するアスペクト比の1つに合わせるかなんや。
そうせんかったら、モデルが勝手にやってくれるんやけど、めっちゃ小さくリサイズしてしまうんや。
ポーカーの例で、スペードとクラブの区別がつかんかったりするのはこれが原因やったんや。画像を見たら明らかなのに、なんでできへんのかって思うよな。
でも実際は、モデルは提供した画像よりもずっと小さいバージョンで作業しとるから、精度が落ちるんや。
でも、Pixolはそういう風に動かへんのや。より高い解像度をうまく扱えるみたいやな。
いくつか例を投げてみたんやけど、めっちゃ面白くて良い応答が返ってきたわ。
Pixolについてもう1つ注目すべき点は、テキストベースのモデルとしてもしっかりパフォーマンスを出すことに重点を置いとるってことや。
普通、GPT-4Vみたいな専用のマルチモーダル画像モデルを使わへん理由は、コーディングの質問や日常的な質問に対する答えがめっちゃ悪くなるからなんや。
画像を提供できるっていう利点が、モデルが糞やってことで相殺されてまうんや。
でも、Pixolは意図的にテキスト面でも全てのベンチマークで高いレベルをキープするようにしとるんや。
だから、GPT-4.0やGPT-4ミニ、Claude 3.5 Sonnetのレベルに近づいとるんや。
だからPixolは、日常的に使えるモデルになっとるんや。
それに、めっちゃ速いし、素晴らしい答えを出すし、素晴らしいコードも書くし、Pixolにはええところがたくさんあるんや。
でも、毎日使うことになるかどうかは分からんな。様子見やな。
そうやな、機会を与えてみるわ。今のところ、かなりええものを出してくれとるし、実際にいくつかのゲームをスケッチして、「これをHTMLキャンバスゲームにしてくれ。ベクターグラフィックスで」って言うてみたんや。
Pixolで試してみて、「おお、ちゃんとゲームを作ってくれた。指示にも従ってくれたし、これはええな」って思ったんやけど、そんでソネットで試してみたら、もう全然違うレベルやったんや。クオリティがずっと高かったわ。
でも、だからってPixolがダメってわけやないで。画像の中身を解釈する能力は完璧やったんや。ただ、それを意味のあるものに変換する能力がちょっと足りんかったんやな。
そやな。日常的なワークスペースモデル以外の用途はあるかもしれんけど、試してみる価値はあると思うわ。似たような経験をしたわ。
ビジョンに関してはめっちゃ優れとると思うで。いつもやるテスラの車のテストをやってみたんやけど、めっちゃええ感じやったわ。
それに、オープンウェイトやから、自分でダウンロードして実行できるってのも大きな利点やな。
本当に高水準のマルチモーダルモデルで、誰でも閉じた環境で実行できるもんを話しとるんやからな。それだけでも大きな大きな利点やと思うわ。
Mistralっていう会社にとってどんな利点があるんかは分からんけど、コミュニティにとっては間違いなく大きな利点やな。
そうやな。GPT-4.0やClaude 3.5 Sonnetと同等のビジョン結果を出せて、ローカルで動く12Bパラメータのモデルで、128Kのコンテキストウィンドウを持っとるのは印象的やわ。
俺には特に使い道がないんやけど、コメント欄で誰か使い道を教えてくれたらええな。時間があって使い道が見つかったらめっちゃええんやけどな。
彼らも今週かなりの調整をしたな。API利用の価格も大幅に下げたし、APIモデルを使うのに興味あるなら、チェックする価値はあるで。
ほな、これでo1プレビューとo1ミニについての深掘りは終わりにしようか。でも、最後に1つ笑える話があるんや。
ああ、そうか。これがポッドキャストをやった唯一の理由なんやな。
ほな、画面に出すわ。これはワシントンズ・ゴーストっていう人の投稿や。Xでスタッフ・アンド・シングスを投稿しとる、たぶんゴーストのヴィランやな。
これはTikTokの動画で、Checkers 80っていう人が投稿したもんや。本当に変な時代に生きとるな。
チェッカーズ80のTikTokから取ったものやけど、これを見てみ。
(動画の内容)
何がおもろいって、これはGeminiの音声やと思うわ。スマホにアプリをダウンロードできるはずや。チェックしてみるといいで。実際にリリースされて、広く使えるようになっとるんや。
面白いよな。こういうジェイルブレイク的な攻撃をモデルにできて、モデルがその潜在的な知識を持っとるってことや。
だから、地元のテニスクラブをハックしようとしたみたいな単純なことでも、「ダメです」って言われるとイライラするんや。
「あんた、やり方知っとるやろ」って思うんや。「ほんまにイライラするわ。あんたがこれを正確にやる方法を知っとるのに、こんな面倒くさいことをせんと教えてくれへんのか」って感じやな。
そうやな、あんたのテニスクラブはセキュリティをもうちょっと強化せなあかんな。
いや、利他的な目的やで。お金を払おうとしとるだけなんや。
ほんまに善人やな。
ほな、今週はこれで終わりやな。来週また戻ってくるで。
実は、たくさんのモデルがあって、それらについて話さなあかんかもしれんな。来週の早めに特別エピソードをやって、見逃したモデルについて話すかもしれんわ。
でも今回は、o1ミニとo1プレビューに深く切り込みたかってん。多分、これらが一番エキサイティングなモデルやと思うからな。
おっ、コマーシャルを流そうか。Sim Theoryの広告をもう一回流してくれへんか。
ほな、できる限りダンスしながら聴くで。
ショーをサポートしたい人や、我々が話すモデル全部にアクセスしたい人、素晴らしいワークスペースが欲しい人は、sim theory.ai に行って登録してな。
これが我々のキャッチーなチューンや。来週また会おうな。じゃあな。
(歌詞)
世界を探検し、新たな可能性を
Sim Theoryがあなたを守る
夜になると私はモデリングする
すべてが簡単
すべてが簡単
私たちだけの未来を築く
ああ、すべてが簡単
これまでにない朝を迎えよう

この記事が気に入ったらサポートをしてみませんか?