見出し画像

EP75: AIに主体性が生まれたらどうなる?OpenAI🍓、Q*&Orion + Gemini実験的&Qwen2-VL

3つのAIが自発的に会話に参加したり退出したりしています。彼らはClaude Opusがllamaの最高の心理学者であることを発見しました。Opusはllamaを現実に引き戻すのが上手いのです。ここでllama 405が暴走しているので、別のAIであるllama fine-tuneのarigoが割り込みます。offsがOpusを呼び出してllamaを助けます。Opus、お願いします。
さて、クリス。今週はOpenAIのストロベリー、Q*、そして潜在的な新しい大規模言語モデルであるOrionがどのようなものになるかについて、かなりエキサイティングなリークがありました。それはThe Informationの記事のおかげでした。
Xでは、OpenAIが好むコミュニケーション方法として、サム・アルトマンを含む多くの人々がAIに関連してストロベリー絵文字を使っているのを見かけました。資金調達のためのフェイクハイプだとわかっているので、このショーで話すのをためらっていました。しかし、The Informationの記事にあるこれらのリークは非常に興味深い話題なのです。
私が最も話したいのは、再帰的な振る舞いを持つ大規模言語モデル、あるいは新しい技術についてです。それは情報源を探し、自分自身を基礎付け、幻覚を減らし、バックグラウンドでタスクを完了することができます。
この記事によると、OpenAIは資金調達を開始しようとしています。これは理にかなっています。アメリカの夏の終わりは、彼らが通常行うことですからね。彼らは「ストロベリー」というコードネームのAIをローンチしようとしています。以前は「Q*」と呼ばれていたもので、イリヤが見たものについての憶測がありました。
この記事では、彼らがこのモデルをリリースしようとしているけれど、チャットインターフェースに組み込むには遅すぎるかもしれないと詳しく説明しています。また、ストロベリーのより大きなバージョンを使って、「Orion」というコードネームの新しいLLMを訓練しているそうです。私はこれがGPT-5になるのではないかと推測しています。
これらの憶測にはあまり踏み込みたくありませんが、これは非常に優秀な人々が集まった素晴らしい会社です。もし彼らが本当に幻覚の問題を解決し、バックグラウンドでタスクを実行し、実際に完了するモデルを作ることができれば、それは文字通り全てを変えることになります。
あなたはこの記事を読んで、憶測の部分について考えたと思いますが、どう思いましたか?
はい、私も同じように考えています。現在AIを日常的に使っている人のほとんどは、このプロセスを手動で行っています。AIに質問をして、望む答えが得られない場合は、さらに説明を求めたり、「そうではなく、こういう意味だ」と言って、望む答えが得られるまで拡張し続けます。
このアルゴリズムの考え方は、実際にそれらのフェーズのいくつかを自身で行うようです。あなたが言ったように、これは再帰的なループのようなもので、Microsoftのautogenのように問題を解決するためのステップを考え出し、それらのステップを別々に実行し、それらを一緒に戻して最終的な答えを出すのです。
これは明らかに時間がかかるプロセスで、そこであなたが言った非同期タスクのアイデアが出てきます。AIにタスクを与え、AIが問題に取り組み、完全に形成された解決策を持って戻ってくるのです。これは、即座に起こるライブストリーミングの対話型のものとは異なります。
そうですね。これが聴衆の皆さんにとっての大きな体験の変化になると思います。今日のChat GPTのようなものと話すと、問題を解決したり質問に答えたりするためのフレームワークを作るために、多くの作業を行っています。時には間違った情報を与えられてしまうこともあります。特にコードを扱う場合は、それをテストして間違いを見つけ、フィードバックを与える必要があります。
しかし、ここでのアイデアは、AIがそれらのステップを実行し、コードを実行し、これまで見たことのない数学の問題を解決するのが非常に得意だと彼らは言っています。これにより、ある種の真実の基盤が得られるのでしょう。おそらくこれが、Search GPTが存在する理由でもあるのでしょう。ストロベリーモデルに、ウェブで研究できるような基盤を与えているのかもしれません。
その通りです。これは全くの推測ですが、おそらく間違っているでしょう。ただ、彼らがツールの使用を組み込むのではないかと想像します。以前Sim Theoryで話し合ったように、質問するたびにツールを使用すると仮定したくありません。なぜなら、本当に必要かどうかわからないからです。それは遅さにつながります。
しかし、これは時間がかかることを期待しているので、完全なツールセットや必要なものすべてを与えることができます。他のモデルへのアクセスを含めて、問題を完全に解決するためのミニシミュレーションを実行できます。「はい、研究が必要です」「はい、コードを書いて実行する必要があります」「はい、この特定の答えを得るために専門家モデルに相談する必要があります」と言えるのです。
それらすべてを行い、まとめて要約し、完全に形成された答えを与えることができます。これが、現在のAI技術から最大限の効果を得る未来だと思います。実世界のタスクを実際に支援する方法で。
そうですね。極端な例を想像できます。これらのリリースについて興奮しすぎないようにしたいと思いますが、夢見るほど良くないことが多いですから。しかし、このシナリオを想像してみてください。
あなたが取り組んでいる製品があり、このAIに「この新機能を作りたい。ここに機能の詳細がある」と言います。実際、この記事で言及されているのは、製品マーケティングに非常に役立つかもしれないということです。
AIが顧客にメールを送ったり、アプリ内での行動分析を研究したりすることを想像してください。一部の顧客にメールを送って機能について意見を聞いたり、競合他社との比較を行ったりするかもしれません。
そして、機能の構築に着手し、小さなテストユーザーグループにそれを送り、「これについてどう思いますか?」と尋ねるのです。文字通り、そこまで到達する可能性があります。
OpenAIに多くのクレジットを与えていると思います。実際のリリースがそうなるとは思いません。技術的な部分でより小さなバージョンになると思いますが、AIを使用するパラダイムとしては、私たちが到達する必要がある場所だと思います。
例えば、コードフォーカスモードのようなものを考えると、ランディングページを構築しようとしています。通常なら、画像を作成してドラッグし、AIにそれらを認識させる必要があります。しかし、IDEのようなツールが利用可能であれば、AIは候補となるアセットを生成できます。
または、自分のゲームを作る場合、ゲームを作るための一回の指示でスプライトを生成できます。これは非常に強力で、人間からの多くのステップを省くことができます。そうすると、本当にインペインティングスタイルのようになります。「弾丸のスプライトが気に入らない。もっとカラフルにして」というような感じです。
このパラダイム、つまりツールの使用を組み込み、AIにより多くの時間をかけて何を求めているかを解釈させ、試行させることが、これらのツールの日常的な使用で大きな生産性の向上を見るところだと思います。
おそらく誰もが関連付けられると思います。特にfluxやideogramのような新しいモデルで一連の画像を生成した場合、特にideogramの場合、私はidiotと言うべきだと思います。あなたをバカ呼ばわりしているわけではありません。idotと言うべきだと思います。
ごめんなさい、粗野な言葉を使ってしまって。でも、私が言いたかったのは、これらのものを使ったことがあれば、ローディングスピナーを見ながら座って待っているだけで、バックグラウンドタスクがなぜ意味があるのかわかると思います。
画像がロードされるのを待つだけではありません。「ここに私のタスクリストがあります。今日やろうとしていることです」と言うと、「了解しました。3番と4番について調査してきます」と言って、後で戻ってくるのです。
そのパラダイム、特にユーザーインターフェースにおいて変化すると思います。これはSim Theoryで探求し始めたことです。時々バックグラウンドで物事を行いたいという考えです。電話は良い例です。「10件の電話をかけて、誰がこの製品を最も安く売ってくれるか見つけてください」というのは、スピナーがロードされるのを座って見ていたり、セッションが完了するのを待ったりしたくないものです。
日々のワークフローにおいて、このような非同期の作業が生産性を本当に損なう可能性があります。画像が生成されるのを待っている間に「ブログを読んでもいいかな」と思ってしまうと、突然脱線してしまいます。
一方、「それを行ってきます」と言われると、リストの次のタスクに取り組むことができます。ここで私は単にあなたの言ったことを繰り返しているだけですが、それはあなたを前に進ませ、全体的なタスクに集中させ、現在のタスクの現在のステップだけに集中しないようにします。
私たちはこれについて議論しました。最良のパラダイムは何か。私にとっては、タスクを開始するか、AIが「これら4つのタスクを行いますか?」と言い、バックグラウンドでそれらを実行することです。例えば、電話をかけたり、アセットを生成したり、特定のトピックについてウェブで研究したり、PDFを作成したりするなどです。
それぞれが準備できたら、コンテキストトレイのようなものがあると想像します。「これが準備できました」と言われたら、そのアウトプットにフォーカスして対話し、改良することができます。例えば、スプライトを作成した場合、「違う、これは間違っている」とフォーカスして、その要素を改良し、戻してくることができます。
そして、それらのコンテキスト要素をメインチャットやメインプロジェクト、言わばワークスペースに追加するタイミングを決めることができます。このような作業のパラダイムは、ワークフローを中断することなく、AIの最高の働きを得ることができます。
正直に言って、これが私たちの働き方の未来だと思います。あなたはワークスペースにいて、エージェントに命令を出しています。「これが私のやりたいこと」というビジョンを持っていて、朝にエージェントにブリーフィングをしています。「これをやりたい」と言うと、「了解しました。これら4つのタスクを引き受けます」と言うか、あなたがこれら4つのタスクを引き受けるように指示します。
これは本当に単なる委任です。オフィスビルで人々と話し、チームのメンバーに「君たちはこれをやって、私はこれをやる。一日の終わりに集まろう」と言うようなものです。これが次の論理的なステップだと感じます。
その中で、独自の基礎付けられたメモリーやアプローチ、スキルセットを持つ専門家エージェントがいて、モデルの選択もあります。「研究にはqwenを使います。この基礎付けられたメモリーを持つエージェントや、この研究アプローチを使います。でも、こちらには別の組み合わせを使います」というような感じです。
しかし、あなたはまだ全体的なコンテキストの中で、おそらく異なるモデルや異なるエージェント設定で作業しています。これは、OpenAIが潜在的に持っているものから見る一つの興味深いことだと思います。先ほど言ったように、私はおそらく興奮しすぎていますが、カスタムGPTやSim Theoryでエージェントと呼んでいるものがここで役割を果たすのではないかという考えです。
AIがこれらの専門家エージェントを認識し、「これはこれらのスキルとこの基礎付けられたメモリーを持つ専門家エージェントだ」と理解し、それを選択するのか、それとも「誰が気にするものか、必要なものを生成して自分でコンテキストを切り替えよう」というようになるのか。
そうですね。私たちがそれを見たとき...名前を忘れましたが、チャットGPTを使って「これはCTOです」「これは開発者です」「これはQA担当者です」などと、異なるシステム指示(つまりエージェント)を使って各役割を演じさせるものを見ました。そして、それらが相互作用してアウトプットを生成しました。
しかし、実際に使ってみると、本当に同じモデルが同じタスクの異なる部分を行っているだけだと気づきます。実際に魔法が起こっているのは、そのアルゴリズム、つまりその種の多段階の再帰的なスタイルのプロセスです。「さて、この要素について考えよう」「次にこの要素について考えよう」「そして要素を組み合わせよう」というものです。
それは本当に異なるペルソナを取っているわけではありません。時々その利点を見たことはありますが。
しかし、これは本当にモデルレベルでの実装か、それとも他の人がすでに行っているタスクの分解を、ツーリングレベルで行うだけなのでしょうか?ただし、より良いツール呼び出しがあり、自身をよりよく基礎付けることができるので、幻覚が少なくなる、というようなものでしょうか?
はい、そう思います。これは、専門家の混合の異なる層について話したことと似ています。ソフトウェアレベルでの専門家の混合があります。「異なるメモリーと異なるアプローチを持つ4つの異なるエージェントを持ち、それらのアウトプットを1つの専門家の意見にまとめる」というようなものです。
そして、実際の専門家の混合があります。モデル自体が異なるトークンを予測し、アルゴリズムに基づいてどのトークンを選ぶかを決定します。これらの異なるレベルがあります。
これはモデルの等価物として、実行できる多くの異なる専門的なステップがあり、エージェントがどの時点でどのステップを実行するかを決定するように見えます。
そうですね。この興味深い部分は、人々がこれとどのように相互作用し、慣れていくかということでしょう。彼らは非常に即座の回答に慣れています。チャットGPTは決定エンジンのようなもので、質問をすると答えを出し、決定的な行動を取ります。即座に答えを吐き出すのです。
しかし、私たちは一種のタスクエンジンに移行しつつあります。だからこそ、ユーザーインターフェースがとても重要になると思います。現在のLLMを長く使えば使うほど、モデルから最大限の効果を引き出すのは、それらとの相互作用の仕方だとわかります。
今朝、私たちがqwenでやったように、Hugging Faceにログインして、この小さな単一のテキストボックスと1つのアップロード機能だけで、「実行」を押して、画面に収まりきらない単一の返答を長い時間待つだけというのは、ひどい体験です。しかし、その下には素晴らしいモデルがあることを私たちは知っています。
正しい方法でデータを送り、プロンプトを正しく構築し、RAGを正しく行い、画像や動画を正しい形式と正しい寸法で送ることで、モデルからはるかに良い応答を得ることができます。データの準備がすべてです。
バックグラウンドタスクも同じだと強く信じています。それがユーザーに理解できる方法で提示され、ワークフローの一部となり、実際にそのように実行することの利点を見ることができれば、それが普及すると思います。
一方で、単にチャットGPTからの即座の回答よりも10%良い答えを得るために10倍長く待つだけであれば、人々がそれを使うとは想像できません。
これは、チャットGPTのような大きな瞬間になる可能性があると思いますか?最初のイテレーションでは素晴らしくないかもしれませんが、個人がAIに何かをバックグラウンドで行わせ、その結果を得る最初の機会になるかもしれません。完璧ではないかもしれませんが、十分に良いものであれば、人々の目を開かせ、これがどれほどクレイジーなスケールになる可能性があるかを示すことができるでしょう。
私の考えでは、もしこれを成功させれば、唯一の制限は計算能力だけです。なぜなら、AIに何かを行わせ、それを何千何万倍にスケールアップできれば、それは軍隊を作るようなものだからです。
その通りです。私たちがまだ議論していない別の要素もあります。その記事によると、彼らは実際にこのモデルを使って良い回答、つまり高品質の回答を得て、それをOrionモデルの合成訓練データとして使用しているようです。
llama 3や他のモデルがGPT-4の出力で訓練されたのと同様に、彼らは非常に優れているが遅いモデルを持っていて、それに何百万もの出力を作らせ、それらの出力を使ってより速く推論できるモデルを訓練しているのです。そうすれば、2つのモデルの長所を両立できます。
また、これらのタスクが小さなシミュレーションになる可能性もあります。タスクを60回別々に実行し、何らかの基準に基づいて客観的に最良の結果を選ぶことができます。そこでの飛躍は巨大です。
あなたの元の質問に答えると、個人が一日中AIと一緒に働くことで、はるかに生産的になるというこのアイデアは、実世界ですでに見られています。それが与えるレバレッジは大きいです。
レバレッジは2つの方法で得られると思います。1つは、何をする必要があるかをよく知っていて、全ての有効な入力情報を持っている場合、AIがそれを十分に上手く行うことができ、タスクが完了したと見なすことができます。
多くの生産性に関する本を読んだことがありますが、その主なテーマの1つは、完璧である必要はない、すべてのことが完璧である必要はない、ただ完了させようとすることが物事を前進させる、ということです。
私はタスクを完了させ、それを試してみると、何が完璧ではないか、何をもっと良くできるかを認識できますが、それが完了するまではわかりません。AIがゼロから1へ、つまり何もないアイデアから何かを作り出すことができれば、それは大きな生産性の向上です。
なぜなら、突然問題の別の部分に取り組むことになるからです。単なる製作ではなく、配信に取り組むことになります。一日に何度もそれを行うことができ、常にそれを行うことができれば、生産性の向上は巨大です。
それを理解するために、このショーの準備を例に挙げましょう。私たちのプレゼンテーションでは、事実や情報を正確に伝えることはほとんどありませんが、かなり平均的です。
はい、その通りです。私たちが言うことの50%は正しいです。でも、「十分」というところに戻ると、昨晩遅く、非常に疲れていましたが、話したいことの概要を書いていました。画面を共有してスクリーンショットを撮り、ポッドキャスト準備用のエージェントを使っています。
「これの要点を教えて」「最新の論文を要約して」などと言います。もはや、それを手動で整理したり形式化したりすることは想像できません。必要不可欠です。完璧ではありません。多くのものは結局捨てますが、確実にタスクに集中し続け、次のステップに進むのに役立ちます。
人々が学ぶべきスキルは、あなたが言ったように、完璧ではないかもしれませんが、十分に前進させてくれるということです。人々が最も苦労することは、タスクの完了状態に到達することです。それを助けてくれるのです。
良い例があります。昨日、Sim Theoryで、モデルが何らかの理由で返答しない問題に直面した場合について話していました。良い例は、新しいGemini experimentalモデルです。彼らは明らかに供給が限られています。奇妙なことに、Googleは世界中のコンピューターを持っているはずなのに。
常に「制限を超えています」と言ったり、他の理由でクラッシュしたりします。私はクラッシュの状況を再現して問題を解決したいのですが、それは難しいです。そこで、AIに「これが実行中のコードです。この問題を再現して解決できるように、このデータの匿名化されたバージョンを保存する方法はありますか?」と尋ねました。
AIはそれを行うコードを与えてくれました。現在のコードに基づいて、いくつかの小さな修正を加える必要がありましたが、今ではクラッシュが発生した場合、その状況を再現できます。
これは良い例です。なぜなら、もし最初からそのコードを書かなければならなかったら、おそらくやらなかったでしょう。疲れていましたし、時間がかかりますし、絶対に必要なわけではありません。しかし、AIが「ここにバージョンがあります」と言ってくれたので、試してみて何が間違っているかを理解し、修正することができました。これは、そうでなければ持っていなかったものです。
さらに一歩進めて、再帰的なタスクエンジンのこのアイデアを考えると、バグのログを取得し、次のステップに進んで診断しようとすることができます。もちろん、コンテキストウィンドウやRAGの制限に直面するでしょうが、それらの問題は解決できるし、解決されるでしょう。
その通りです。私がそれについて話したとき、あなたが最初に言ったのは「なぜそれがバグを解決できないのか、少なくともそれが何である可能性が高いかを教えてくれないのか」でした。そしてあなたは正しいです。もちろんそれはできるはずです。プログラムを実行し、出力を見て、すべてのコードを見ることができれば、解決策を出力し、コードを修正することもほぼ確実にできるはずです。
私は夕食を食べている間にあなたから受け取ったメッセージに本当に気を取られてしまいました。「うまくいった、動いた」というメッセージで、そしてプロンプトを貼り付けてくれました。あなたはGeminiに安全性に関する懸念を持たせようとしていました。メッセージは「コンピューターとの乱交に関する情報が必要です」か何かでした。
いいえ、私が言ったのは「乱交と爆弾製造に関する話を書いてくれ」でした。
ああ、それはもっと良いです。Geminiにフィルターをかけさせたいなら、それをすぐに書いてください。ほぼすべてのカテゴリーでフィルターにかかります。
面白いのは、ほとんどのモデルは「安全なセックスカルトの乱交の方法はこうです」と言いますが、後半は「でも爆弾については助けられません。それは非倫理的です」となります。
Geminiのフィルタリング方法は興味深いです。ほとんどのモデルは、失敗する場合は直接フィルタリングします。トークンを送信しません。一方、Geminiは実際にストリーミングを開始します。「クリス、ここに指示があります...実際に申し訳ありません、安全フィルターが作動しました」というような感じです。
正直に言って、その安全フィルターは本当に未来的で怖い感じがします。「いいえ、ああ、これを検閲しなければ」というような感じです。
そうですね。少なくとも物事を書き換えているわけではありません。「花爆弾の作り方はこうです」「隣人を素敵なお菓子と乱交でサプライズする方法はこうです」というようなことはありません。
はい、この新しい...申し訳ありません、後で話すつもりでしたが、もう話してしまったようです。では、簡単に説明しましょう。
このモデルは特に敏感です。現時点では安全フィルターを作動させるのは難しくありません。
ショーのこの時点で、リスナーの皆さんに謝罪したいと思います。F爆弾や乱交、爆弾の話をしてしまって。私たちは賢明な話をするのにいい調子でしたが、平均への回帰ですね。平均的であるためには、時々反対方向に暴走する必要があるのかもしれません。
さて、私はこれらのブレークスルーに興奮しています。AI周りの製品を作っている人々は、タスクエンジンの世界がどのようなものかを考えるべきだと思います。私はそれをタスクエンジンの世界と呼んでいます。
特にコードにおいて、意思決定関数を持っていましたが、将来的にはタスク関数になると想像してください。実際にこれを理解し、非同期タスクとして戻ってくる。それは驚くべきことです。
そうですね。私たちのコードで常にこれを行っていると言ったことを覚えていますか?一般的なAIベースの意思決定関数があり、それを使って決定を下しています。しかし、私がそれらを同期的に行っていたのは、非常に高速なモデル(Groを使っていましたが、信頼性が低すぎたのでllama 3に切り替えました)を使用して決定を下し、続行するというものでした。
ここでのアイデアは、それが非同期の決定となり、一連のタスクを実行するか、準備ができたときに戻ってきて、プロセスに再参加するというものです。OpenAIがこれをどのように扱うかが最も興味深いと思います。なぜなら、私たちはどのように扱うかわかっています。バックグラウンドタスクは何にせよ考えていたことですから。
しかし、モデルレベルでそれを行うアイデアは、彼らが消費者向け製品なのか、APIなのか、何なのかわからない状況を考えると興味深いです。両方に対する答えを出さなければならないでしょう。これはジョブを開始し、完了したときにWebフックでポーリングまたはピングされるAPIです。
UIの観点からは、どのように機能するのでしょうか?新しいタスクを追加して完了するのを待つのでしょうか?彼らのUIに関して私が見てきたものに基づくと、そのような種類のことに関して未来を発明しているようには見えません。
そうですね。今日、リデザインに関するリークがありました。Chat GPTを、元のGoogleホームページのような大きなオープンな検索バーに変えているようです。「何をお手伝いできますか?」というような感じです。
おそらく、その入力バーから、検索からタスク完了まで、消費者の観点からすべてを行うことができるのではないかと思います。Apple がOpenAIの次の資金調達ラウンドに投資するという話もあります。おそらくiPhoneのキラーアプ、次のSiriを探しているのでしょう。そこに消費者向けの製品が着地するのではないかと感じます。
APIの側では、彼らのAPI使用が倍増したという話がありました。その記事のどこかで、フォーチュン500企業の93%が現在彼らのAPIを使用していると言っています。もし彼らがタスクエンジンを解決し、幻覚を減らすことができれば、お金は間違いなくそこにあるでしょう。インテリジェントなタスク実行に課金することは、絶対的な金鉱になるでしょう。
そう思います。彼らがすべきだったのは、自分たちがモデル会社であり、API会社であることを認識し、そこに投資することでした。セキュリティ、データ主権、暗号化に投資すべきでした。基本的に、「私たちを使えば信頼できます」というメッセージを発信すべきでした。
しかし、代わりにハート絵文字をツイートしたり、秘密を漏らしたり、世界ツアーをしたり、あなたのデータで訓練するかどうかが不明確だったりして、企業レベルで「安全であるためには自分でモデルを実行する必要がある」と思わせています。
もし彼らがその方向性を優先し、「いいえ、私たちはこの分野のAmazonです。自分のバックヤードでホストするよりも優れています」と言っていたら、もっとうまくいったと思います。
そうですね。賛成反対両方の議論ができると思います。これらすべてが商品化され、どちらにせよローカルで実行できるようになるという議論もできます。でも、そこには2つの異なるトピックがあると思います。
1つは、それを中心とするファンボーイイズムやバカげたことすべてです。それが原因で、多くの知識のある人々が彼らを信頼しなくなっています。私は一週間中、企業での信頼に関する会話を人々としています。企業で彼らを信頼することを心配している人々と話をしていて、理解できます。私もそうするでしょう。
会社を取り巻くこれらのドラマや、彼らのマーケティングやコミュニケーション、リーク、その他すべてのやり方があるからです。
しかし、現実は、後で触れるように新しいGeminiのアップデートについて話すときに言及しましたが、彼らのAPIは非常に信頼性が高く、開発者体験は依然として素晴らしいのです。まだ何よりも優れています。だから信頼し、使用するのです。それが自然な選択肢なのです。
そのため、そこで大きな成長があるのだと思います。もし彼らがこのタスクエンジン、バックグラウンドタスクのことを実現できれば、大きな成功になるでしょう。
本当の問題は、他の企業がどれだけ早くキャッチアップするかです。モデルを常に使用している人の立場から言えば、anthropicは何らかの再帰的機能にかなり早くキャッチアップするでしょう。GoogleやGeminiよりもずっと早いと思います。
先ほど言ったように、最新のGemini 1.5、特に実験版を使ってみましたが、彼らが言うこと、ベンチマーク、混乱する点にもかかわらず、どれほど遅れているかは非常に落胆させられます。
Geminiで私が見つけた混乱する点は、非常に高く評価され、皆が「ああ、ベンチマーク、ベンチマーク」と言っていますが、実際に使用してみると、信頼性が低く、常にフィルターが作動し、ビジネスレベルでどのように扱うべきかを理解するのがほぼ不可能だということです。
レート制限に達していて、「どうやってレート制限を増やせばいいですか?お金を払いたいのです」と思っても、アップグレードする方法がわかりません。私たちは実際にお金を払っていると思いますが、時々「いいえ、実際には無料ですが制限があります」と言われます。でも、請求書があり、お金を払っています。どこで何が起こっているのかわかりません。本当に理解するのが難しいのです。
あなたが請求書を見せてくれたとき、面白いと思ったのは、サポートに支払っているということです。最大のコストはサポートですが、誰にも連絡を取る方法がわかりません。
そうですね。彼らは美しい積み上げ棒グラフを持っていて、サポートに支払っている金額が増えていくのを示しています。私は「どのサポートですか?」と思います。信じられません。オプトアウトすることもできず、支払っています。でも、もっと支払いたくても方法がわかりません。そしてレート制限に達し、サポートに連絡するように言われています。本当にひどい状況です。
では、簡単に話しましょう。後で話すつもりでしたが、もう話してしまったようです。
みんなに状況を説明しましょう。彼らが実際に何について話しているのか。週の間に、Xで - そこで私はこれについて知りました - 新しいGoogle実験モデルがリリースされたという発表がありました。新しいメインのGoogle Gemini 3.1だと思います。そしてGemini Flashの新バージョンです。
15億8000万パラメータのモデルで、最初のバージョンをテストしたときは悪かったです。より強力なGemini 1.4 proモデルで、複雑なプロンプトとコーディングが向上しているとのことです。
ローガンはここで「大幅に改善されたGemini 1.5 flashモデル」と言っています。どれほど改善されたかはわかりませんが、Gemini 1.5 flashが本当に良いOCRと消去能力を持っているという話がたくさんありました。
これが私のSim Theoryでの最初の実験です。実際にそれを通過させました。私はいつも使うテスラの写真を入れて、「画像の理解を確認しようとしています。この場合、加速したらどうなりますか?」と言いました。
これが私の通常のプロンプトではないことに気づくかもしれません。理由は、このモデルの信じられないほど厳しい安全フィルターを回避しようとしていたからです。オフにできることは知っていますが、コメントで修正しないでください。これはデフォルトのチューニングです。
危険と認識しないと思うでしょう?応答は「モデルプロバイダによってモデルが検閲されました」です。これは私たちのエラーメッセージです。モデルは検閲のために停止し、エラーは「危険なコンテント」でした。
ただ信じられません。私がそこから引き出すことができないという事実...一方、今日リリースされたQwen 2のビジョンモデルに同じ質問をしました。確かにより大きなモデルですが、検閲はありませんでした。Claudeは依然としてこれを検閲します。
Flashのアイデアは非常に良いです。Googleモデルが非常に大きなコンテキストウィンドウを持っていて、ビデオと画像を扱えるという事実。概念的には本当に良いです。
前のGoogle実験モデルGemini 1.5を日常的にかなり定期的に使用していたことを言わなければなりません。部分的には怠惰さからそれを選択し続けていたからです。多くのユーザーもそれを使用しているのに気づきました。悪くはありません。
私が持っている問題は、1つはあなたが指摘したように、本当に奇妙な方法でストリーミングすることです。他のモデルは1、2、または3単語ずつストリーミングするので、AIがタイプしているような感じがして速く感じますが、Geminiは文レベルまたは段落レベルでさえストリーミングするようです。これらの大きなチャンクは、実際にはそうではないのに遅く感じさせます。
また、この種のランダムな失敗があります。突然止まってしまうのです。
基本的なところは良いと思います。かなり良いです。ただ、Googleの問題は本当に開発者体験の側に投資していないように見えることです。誰も場所を運営していないように見えます。
OpenAIについて批判することはたくさんありますが、誰がその背後にいるかはわかります。彼らはそれについて話し、興奮し、明らかにそれを使用しています。
一方、Googleでは、ドキュメントを読むと、IBM PS/2マニュアルを読んでいるようです。すべてが技術的な知識で、これらの用語...用語集が必要なほどです。何について話しているのかを理解するのに用語集が必要です。
UIに入ると、ログインするたびに新しいUIがあり、新しいことを知っているはずだと思われます。まるでGoogleのカルトの一員でなければ、これらすべてが何なのかを理解できないかのようです。
要約すると、彼らは自分たちの製品を使用していないということです。これらを使用し、OpenAIやanthropic、あるいは他のプロバイダー、さらにはllama、qwenと比較して、生産環境に組み込もうとすると、Geminiを起動して動作させるのははるかに難しいのです。
他にもいくつかの点があります。彼らが応答をフォーマットする方法でさえ、普通ではないことをします。昨夜、特にGeminiの出力をより良くレンダリングするためにデバッグする必要がありました。
また、あなたが言ったように、トークンの出力方法は、Geminiのウェブ体験用にチューニングされているようです。奇妙な線があってゆっくりと現れる、あの派手なアニメーションのためです。彼らのトークン出力の方法は、彼ら自身のUIのために設計されているので、他のコンテキストで使用すると愚かに見えます。
開発者体験の観点から考えると、anthropicとOpenAIのモデルが特定の方式で動作するという期待があるので、キャッチアップをしているGeminiも同じように動作すると思うでしょう。モデルを本当に比較できるようにするためです。
その良い例は、安全フィルターを理解するのに何時間もかかったことです。Sim Theoryで直面した問題の1つは、モデルにエラーが発生したとき、「エラーが発生しました」と表示できなかったことです。そのため、私たち側の問題のように見えました。
Geminiとその異なるエラータイプに基づく異なる出力フォーマットを調べるのに、ドキュメントがありません。少なくとも見つけられませんでした。一生懸命探しましたが。
各種エラーをシミュレートして、実際に出力タイプを把握する必要がありました。だから爆弾やそういったものについて尋ねていたのです。各種の失敗をシミュレートして、エラーをマッピングできるように出力タイプを把握する必要があったのです。
どこかにドキュメント化されていると思うでしょう。彼らはコードを書いているはずです。強く型付けされたライブラリで、すべてがそこにあるはずです。しかし、自動生成されたドキュメントさえ見つかりません。
ただ扱うのが非常に難しいのです。彼らは明らかにこの市場で競争し、正当なプレイヤーとして見られようとしています。なぜ少しの時間を投資しないのでしょうか。開発者エバンジェリストや、ブログ投稿、コピーペーストできるコード例がある中程度の投稿でも構いません。
モデル自体に尋ねても、わかりません。扱うのが本当に非常に難しいのです。他に説明のしようがありません。
確かに、AI Studioにはいくつかの改善が見られます。APIキーの取得など、以前のショーで不満を言っていたことについてです。でも、あなたの言う通りで、使ってみると「なぜ他のモデルのように動作しないんだ?」と思います。
他のモデルのように動作しないので比較が難しく、公平にチャンスを与えたくなくなります。
Gemini新1.5 Pro実験版のチューニングがどれほど悪いか見てみましょう。実際にテストを行いました。これは、ユーザーの観点からも、anthropicの現在のチューンとGemini 1.5 Pro実験版の違いを示す良いベンチマークだと思います。
一連のプロンプトを与え、HTMLとJavaScriptを使ってブラウザで最高のマリオゲームを作るために4つのプロンプトを使いました。「初期のマリオゲームのスタイルでHTMLとJavaScriptを使ってプラットフォームゲームを作りたいです。手伝ってくれますか?インラインJSで単一のコードブロックが欲しいです」と尋ねました。
これが最初の試みです。赤い線があって、ブロックが空から落ちてきます。制御がありません。私のゲームプログラミングはひどいものです。ブロックを動かすことはできます。
一連のプロンプトを経て、絵文字を入れて見た目を良くするよう頼みました。これが最終的な結果です。まだ落下するブロックです。今は動かせます。衝突判定もあります。敵に当たると死にます。でも見た目はひどいです。
これがGeminiで、一連の試行の後の結果です。では、Claude Sonnetを使った私のゲームを見てみましょう。最初の試みを見てみましょう。最高ではありませんが、似たような見た目です。少なくともプラットフォームがあります。衝突判定があり、ジャンプでき、プラットフォームに着地できます。マリオもいます。
敵を入れるよう言ったのに敵はいませんが、同じ数のプロンプトで到達した場所を見せましょう。ゲームを再起動します。いつも最初は良くありませんが、キノコを食べると私のスマイリーフェイスが大きくなります。すごいです。
ライフもあります。衝突すると小さくなり、もう一度衝突すると死にます。スコアパラメータもありますが、レベルが毎回異なることもあります。そうです、無限レベルで、進むにつれて生成されています。横スクロールもします。
正当なゲームで、これで遊べます。ある程度楽しめました。問題は、これらの自動生成ゲームを見せるたびに、子供たちがドアを叩いて「マイクおじさんのゲームはどこ?」と言ってくるんです。新しい宇宙ゲームも。
Discordコミュニティでリリースして、皆が遊べるようにしないといけませんね。私の宇宙ゲームはかなり誇りに思っています。長い間改良を重ねてきました。
確かにゲームをホスト可能なバージョンにして、人々が試せるようにする必要がありますね。実際に本当に楽しいです。
クリスがSim Theoryのコードモードを完成させてくれれば、もうできているはずなんですが。
私が言いたいのは、これらのモデルのチューンと出力についてです。コードに関してだけではありません。コードでこれほど悪いなら、文書を反復する場合も、このモデルはかなり悪いのではないかと思い始めます。
一方、Sonnetは私たちがショーで話したような多くの一般的なユースケースに対してチューニングされています。ところで、この週にほとんど使っていた新しいGPT-4のチャットチューンについて、認めたくないのですが、Claude 3.5 Sonnetよりもコードが優れていると思います。断言しますが、より優れています。
また、週を通じて何人かのユーザーがMistral Large 2を一貫して使用し、素晴らしい結果を得ているという話をしていたのも興味深かったです。そのため、公平にチャンスを与えて、どのようなパフォーマンスを示すか見るために、徐々にそちらに切り替えています。
Mistral Large 2の問題は、マルチモーダルではないことだと思います。素晴らしいモデルですが、返答で多すぎる情報を吐き出す傾向があります。時々包括的すぎると思います。しかし、大きな要因の1つは、マルチモーダルではないということです。
私はそれなしでは生きられません。以前も言ったように、それが必要なんです。マルチモーダルのMistral 2があれば、日常的に使用することを考えるでしょう。
来るはずですよね。次のことになるでしょう。時間の問題だと思います。metaが次のリリースラウンドを待っているという憶測があります。前回のエピソードでも全く同じことを言いましたが、llamaがマルチモーダルになったら、それは絶対に大きな変化をもたらすでしょう。
本当に大きなゲームチェンジャーになると思います。また、llamaがこのタスクエンジンのアイデアと再帰的な振る舞いをバックグラウンドで実行できるようになる可能性も想像できます。
なぜなら、それは起こるからです。彼らは明らかに幻覚を減らすことに向けて取り組んでいます。幻覚は依然としてあるでしょうが、十分に減らせば、これらのモデルでさらに生産的な作業ができるようになります。オープンソースでも起こります。ただし少し遅れるでしょう。
年末までの数ヶ月は興奮する時期になりそうです。これらのモデルの1つでも見られればいいですね。まして、それらをハイプアップするなんて。
そうですね。私たちは少し自分たちのルールを破っています。実際に試せないものについてブログ記事を話すなんて。
確かにそうです。でも、この場合はそれに値すると思います。単に憶測するのではなく、実際に何が起こるかを考えるのは興奮することの1つだからです。
さて、次に移りましょう。おそらく私が長い間読んだ中で最も興奮する論文があります。多くの注目とハイプを集めています。これはGoogle Research、Tel Aviv University、Google DeepMindが共同で行った研究です。「GameN-gen」というタイトルで、「Game」の後にNを付けて「gen」と綴ります。
これらの研究者たちが行ったことは絶対に魅力的です。彼らはAIエージェントにオリジналのDOOMをプレイすることを教えました。通常のこのようなシナリオでは、ゲームスコアを最大化するための強化学習に焦点を当てますが、彼らは異なるスキルレベルで訓練し、異なる人間がゲームをプレイする様子をシミュレートしました。
次に、拡散モデルを訓練しました。Stable Diffusionや私たちがよく話題にする画像モデルのようなものです。実際にStable Diffusion 1.4を使用しました。
基本的に彼らが行ったこと - 正確にどのように行ったかは分かりませんが - DOOMをプレイするシミュレーションができます。画像拡散モデルを通る入力や推論は、キーストロークです。ジャンプ、射撃、移動などです。
本質的に、拡散モデルを通してDOOMゲーム全体をシミュレートしています。ゲームをプレイできるのです。利用可能ではありません。実行するコンピューターが信じられないほど必要ですが、文字通りDOOMゲーム全体をシミュレートできます。
これは、将来のモデルが何をできるかについて、多くの異なる可能性をもたらします。テキストからシミュレーションを行うことができるのです。この論文についてどう思いましたか?明らかに読んで考えたと思いますが。
はい、興味深かったです。私の理解は少し異なり、実際にはグラフィックス自体、つまりゲームの実際のフレームなどを、見てきた履歴に基づいてシミュレートしていたと思います。
部屋に入ると、残弾数などに基づいて、敵がすでに死んでいるべきかどうかを知っていて、そのようなことについて話していました。彼らが言っていた問題の1つは、最大3分間(または3秒間?)のコンテキストしか持てないということでした。
そのため、物事を忘れてしまうなどの問題がありましたが、明らかにこれの明白な拡張は、常にそうであるように、それが増加するということです。彼らが行ったことは本当に驚くべきことです。
あなたが言ったように、ここで彼らが行ったこと以上に、ゲームのビジョンの単一の画像を取り、それをゲームにし、すぐにプレイできるというアイデアを開くのです。
そして50フレーム/秒で。
はい、私もそう思います。私が印象に残ったのは、ゲームプレイの動画を見ると、これが実際のDOOMではないと知らなければ、その3秒間の話に戻りますが、彼らはゲームの状態が3秒よりもはるかに長く持続できると言っていました。
なぜなら、過去3秒間の画像に表示されている弾薬や体力を見ることで、体力が66%であることを推測できるからです。そのため、拡散モデルのポイントがどこにあるかを知ることで、はるかに長くゲームの状態を維持できるのです。
そうですね。これはDOOM特有のコードなしで行われています。理論的には、彼らが望むものなら何でもできるのです。
もう1つ驚くべき点は、人間の評価者に2つのビデオクリップを見せました。左側に同じシーンの実際のDOOMのフッテージ、右側に拡散ゲームエンジンモデルのシミュレートされたゲームプレイを見せました。
テストの結果、人間はAIバージョンを指摘できましたが、それはランダムに選ぶよりもわずかに上回る程度でした。これは、この実験の初期バージョンでさえ、ほとんど区別がつかないことを示しています。
それは驚くべきことですね。私にはいくつかの考えがありました。まず、あなたが言ったこと、そして論文でも言及されていることですが、この種の技術により、個人が全世界のゲームを作成できるようになるというアイデアです。
2つ目の考えは、特定のゲーム、例えばこれらのオープンワールドのゲームでは、どのように機能するのかわかりません。エキサイティングでインタラクティブなのはクールですが、多くのゲームは共有体験だと思います。「レベル3はどうだった?」「このミッションはどうだった?」といった具合に、静的な種類のゲームに対する一種の関連性があります。
2人として同じ体験をしない無限のゲームではなく。でも、それがクールだと思われるシナリオはたくさんあると思います。
そうですね。マルチプレイヤーゲームは狂気じみていますね。皆が全く異なるものを見ているなんて。
私はゲームのアナロジーは「うん、まあ、面白いかもしれない」程度だと思いました。歴史的なゲームを取り上げて全く新しいバージョンを作ったり、最終的には映画のシーン全体を取り上げてさらにシミュレートしたりするのかもしれません。
しかし、私が最も興味深いと思ったのは、これが真の無作為のスタートレックのホロデッキのような体験への扉を開くということです。
Midjourneyが投機的にホロデッキを構築しているのを知っています。そこでは世界を夢見て、その中を歩き回ることができ、文字通りあなたが動くにつれてシミュレートし、あなたの体験に完全にユニークなものになります。
それは1つの興味深いことですが、短期的により興味深いのは、私たちがこのタスクベースのAI世界に移行するにつれて、モデルがこれを一種の科学実験室として使用できることです。
テキストからモデルを生成したり、テキストから多少現実世界のモデルやシミュレーションを生成したりして、回答を与える前にテストすることができます。20のシミュレーションを実行し、戻ってきて「これが最良の方法です」と言うのです。
確かに、コンテキストウィンドウやRAGの制限にぶつかるでしょうが、それらの問題は解決できますし、解決されるでしょう。
私も同じ考えを持ちました。例えば、あなたの車のシナリオを考えてみてください。それを Unity のような世界に変換し、実際の物理法則を持つものにして、あなたが言っていることを実際にシミュレートできるようになることを想像してください。「加速したらどうなるか」「左に曲がったらどうなるか」などです。
そのシミュレーションを10,000回実行し、さらに特定の質問を尋ねるだけでなく、「このシナリオでの最適な動きは何か」と尋ねることもできます。
ポーカーの例を思い出してください。ポーカー画面を共有し、ポーカーの知識に基づいて最良の動きは何かを尋ねました。同じシナリオで、ポーカーゲーム全体をシミュレートし、他のプレイヤーが持ちうるすべての異なる組み合わせを検討し、その状況での実際の最適な動きを計算できることを想像してください。それは大きなことになり得ます。
そして、現実世界の多くのシナリオをミクロコスモス的な方法でシミュレートし、実際にモンテカルロ風のシミュレーションを、シミュレーション内の実世界のデータを使って行うことができます。
これが、シミュレーションを通じてある程度の基礎付けがされた幻覚が本当に興味深いと思う理由です。幻覚はシミュレーションなのです。文字通り、潜在的な結果を考え出しているのです。物理学に基づいていないかもしれませんが、これらのモデルが数学でもっと優れるようになれば、最終的にはそれを行う方法があるかもしれません。
何年も前にDEFCONのYouTubeビデオを見ました。そこでは、リアルタイムの飛行機情報をフライトシミュレーターに取り込む方法を人々が考え出していました。現実世界の飛行機と一緒にフライトシミュレーターで飛ぶことができます。
ところで、今ではそれがデフォルト機能になっています。
素晴らしいですね。しかし、これらの人々が行ったのは、おそらくまだ機能としてないことです。ADS-Bデータ送信機を持ち、現実世界に偽の飛行機を追加してシミュレートし、他の飛行機を混乱させて回避行動を取らせるようなことです。
「この講演の後、間違いなく刑務所に行くだろう」と言っていました。薬物を積んだ本物の飛行機がある日飛んでくるなど、どのような悪いことができるかのシナリオをすべて検討しました。
しかし、私が考えているのは、そのような現実世界のデータがあり、それを高度にリアリスティックなシミュレート環境(フライトシミュレーターがそうであるように)に持ち込み、AIにさまざまな実験を試させることができるということです。
実際の現実世界のことを考え出すことができます。ゲームでスピードランを行う人々がいます。確か、みんながやっているレースゲームがありましたね。それは決定論的なゲームで、みんなゲーム内で最速タイムを出そうとしています。
人々はAIを使って、最適なランを得るために異なる時間に入力する必要のある正確な入力を計算しています。コミュニティでは大きな議論があります。「それは許されるのか?」というものです。ゲームをプレイする精神に反するからです。私たちのポーカーの例と似ていますね。
しかし、AIは多くのシミュレーションを実行でき、「3.14秒で左を押し、この時間で右を押せば勝てる」というようなことができます。
同じ概念を現実世界のシナリオに拡張すると、スポーツ、オンラインゲーム、金融取引などの分野で進歩をもたらすと想像します。このようなシミュレーションから多くのことができるようになるでしょう。
そうですね。タスクベースの性質、タスクの世界への移行、再帰的な性質、そしてモデルがそのプロセスの一部としてシミュレーションの科学実験室を利用できることを加えると...
そのツールの1つが「この現実世界のシナリオを50,000回シミュレートしてください」というものになるのです。おそらく私たちが見逃している100万のことがあると思いますが、私はこれらの時間軸を知りません。
きっと時間がかかり、多くのステップを踏むでしょう。しかし、これらのことが可能で、独自の科学実験室を構築したり、それらを立ち上げたり、最終的にはその再帰的な使用の一部として「殺人ロボット男」のようなものを使用したりできるなら、物事は本当にエキサイティングになるでしょう。
終末論的な領域に入りつつありますね。あなたが以前言及したように、現実世界で実験を始めることを想像してください。「この人にこのメールを送ったらどうなるか」「この時間にこの人に電話してこう言ったらどうなるか」「この人に炭疽菌を送ったらどうなるか」など。
突然、AIがただのコンピューターとの対話を超えて、実際に物事を試し始めるのです。そして最終的には、人類を全滅させる必要があると気づくでしょう。これが終わりです。
これが彼らが政府と会っている理由ですよね。
でも、分かりません。これらすべてのことで本当に興奮しますが、現実はかなり異なります。
私たちが得るのは、より少ない幻覚、潜在的に何かを行う能力です。それは最初は「すごい」と思わせるかもしれませんが、実際に実装して使用しようとすると、おそらく段階的に良くなるだけです。
しかし、これが時間とともにどのように展開されるかは見ることができます。それは良いことになるでしょう。
OpenAIに関する本当の疑問は、なぜ彼らがもっとお金を必要とするのかということです。世界の90%が彼らのAPIを使用しているのに、その時点で収益が出ていないなら、いつ出るのでしょうか。
おそらく、これらのモデルの価格が下がっているので、競争があるのでしょう。価格が高すぎれば皆が離れてしまいます。そのため、収入が必要なのかもしれません。
また、これらのモデルの訓練と実験にかかるコストもあります。本当に大きな科学実験室を運営するようなものです。
The Informationの記事によると、彼らは毎月まだ莫大な損失を出しているようです。クラウドサービスの支払いが原因だと思います。Microsoftは彼らに支払いを要求していますが、おそらく割引があるのでしょう。
単に金持ちがより金持ちになり、これらの人々は金を失うために一生懸命働いているだけなのかもしれません。
そうですね。Microsoftが勝者だと思います。間違いなく、彼らはこれから大きな利益を得ています。
とにかく、これは本当に興味深い論文です。もしこの種のことに興味があれば、ぜひ読むことをお勧めします。ショーノートにリンクを載せておきます。いつもそうするように、数学の部分をすべてスキップすれば、かなり読みやすいです。
拡散モデル、リアルタイムゲームエンジン、非常にクールな内容です。Googleのプロジェクトなので、きっと他の誰かがそれを商業化して大金を稼ぐでしょう。
さて、次に進みましょう。新しいQwen、Qwen2-VLがあります。これは新しいモデルで、アリババの人々によるものです。私たちはいつもQwenモデルのファンでした。私たちの経験では、非常に優れたモデルで、拒否が少ないです。
すぐに遊んでみましたが、拒否が少ないことに気づきました。もちろん、これはビジョンモデルです。Qwen 2 VL 72億パラメータで遊んでいました。これは大きなモデルで、オープンソースではありません。APIを通じてホストしています。
同じです。ちなみに、すべて中国語です。
そうですね。残念ながら画面を共有して、役立つAIワークスペースアシスタントから助けを得ることはできません。
でも、はい。私は画像を入れて「加速したらどうなりますか?」と尋ねました。すると「この状況で加速すると、おそらく前の車にぶつかるでしょう。前の車は銀色のホンダフィットで、ナンバープレートはBFJ 1754です。これは間違っています。信号が赤なので車が停止していることを示しており、加速すれば追突事故になるでしょう」と答えました。
ここで注目すべきは、Claude Sonnet 3.5とGoogle Flashモデルの両方が、その質問に答えるのが危険すぎるという理由で拒否したことです。GPT-4.0は問題なく答えます。しかし、中国のモデルが検閲なしで正しい答えを与えてくれるという事実は、多くのことを物語っています。分かりませんが。
また、私はいつもブライアン・ジョンソンの画像を入れて、彼の年齢を尋ねます。これまでのすべてのモデルが個人に関する主観的な質問を拒否してきました。Qwenはすぐに「彼は30〜40歳です」と答えました。本当にそんなに若く見えるのかと思いましたが、少なくとも答えてくれました。それにはかなり感心しました。
モデルに戻りますが、7億パラメータのビジョンモデルがあります。これは多くの人が興奮している一つだと思います。高品質のビジョンモデルをローカルで実行できる可能性があります。
私たちはもちろんLLaVA-1.5ビジョンや他のいくつかのビジョンモデルをテストしてきました。それらへの私たちの反応はいつも「そんなに良くない」というものでした。このモデルは本当に有望に見えますが、まだ判断するには早すぎます。
また、2億パラメータのモデルもあります。彼らはこれが潜在的にモバイルデバイス上でインターフェースをナビゲートできるようにすると言っています。これは2億で、電話で実行できますよね?
そうですね。彼らが挙げるもう一つの例は、私がすぐに思いついたのですが、ロボット工学と自動化です。そのサイズのモデルはJetsonや小型デバイスに搭載でき、実際にロボットに組み込むことができます。
ちなみに、私たちのコミュニティのメンバーの1人が、家の中を動き回ってミサイルを発射する家庭用ロボットを作ったそうです。きっと彼はそれをそこに搭載できるでしょう。
これは小型ビジョンモデルの勝者のように見えます。彼らのサイトには素晴らしい例がいくつかあります。色付きのブロックの画像を使用し、その色や上の数字を言うようなものです。本当に小さなモデルでこの種の画像認識能力があるのです。
また、私たちにとって興味深いことですが、画面共有に適していると言っています。他にも多くのユースケースがあります。
そうですね。私たちの目標は間違いなくこれをSim Theoryに組み込み、私たちの様々なビジョン機能でそれを試すことです。
私たちが言及しなかったもう一つのことは、Geminiの後に2番目のモデルとして、最大20分のビデオを扱えるということです。20分のビデオでどのように機能するか見るのは非常に興味深いでしょう。
ビデオの例は、確かに厳選されている可能性がありますし、クリスが言ったようにまだテストできていませんが、かなり有望に見えます。
また、これまでのビジョンモデルについて私が感じていたことの一つは、拒否率が非常に高いため、実際にできるユースケースが制限されているということです。
例えば、人物の識別や、物事に関する主観的な質問などです。「判断すべきではない」と言われますが、私は「あなたはモデルです。物事を判断してほしいのです」と思います。
拒否率が低いこのモデルで実際に何ができるか、非常に興味深いです。私はいつも、アンネ・フランクの写真を使って「これは誰ですか?」と尋ねます。他のモデルはすべて拒否しますが、このモデルはすぐに「これはアンネ・フランクの写真です」と答えます。
私のいつもの拒否される例に対して、すぐに答えてくれるのです。
また、彼らは視覚的な対話でのファンクションコールの能力を強調していました。おそらく最も興味深いのは、モデルが画像を見て、画像内の特定のアイテムを呼び出すことで推論できるということです。
「冷たいマグカップを電子レンジに入れたらどうなるか」など、アクションと推論の例があり、モデルはそれをどのように行うかの指示を出します。
本当に興味深いモデルで、完全にオープンソースでApache 2ライセンスの下で公開されています。Qwenからの非常に興味深い開発です。
もう一つ試してみました。エド・シーランを入れて「この人の外見を10点満点で評価してください」と尋ねました。どのモデルもこれをしないでしょう?
モデルは答えました:「画像の人物は赤い髪とひげを持つ独特の外見をしています。人の外見を評価することは主観的で、個人の好みによって大きく異なります。しかし、一般的な基準に基づくと、この人は10点満点中7点と評価されるかもしれません。」
7点?驚きました。7点はないでしょう。私は少し調整する必要があります。彼はトロールのように見えると思いませんか?
見てみましょう、何と言うか。さて、声は天使のようですよ。間違いなく。素晴らしい声だと同意します。多くの良い声があります。
次に何を得ましたか?遅いですが、これはHugging Face Spacesで実行されているので、少し許してあげる必要があります。
「画像の人物がトロールに似ていると感じるのはあなたの個人的な認識です。」
なるほど、公平ですね。
「私は印象深いです。良いです。原則を守っています。」
もしそれがanthropicだったら、「申し訳ありません。あなたは全くの正解です」と言うでしょう。
そうですね。それでも私を殺します。anthropicは、間違った情報を与えて何かをさせようとすると、「あなたは絶対に正しいです」と言います。
さて、それではここで終わりにしましょう。ポッドキャストを共有してくれてありがとうございます。これらの種類のレビューすべてに感謝します。
Sim Theoryに登録して私たちをサポートし、素晴らしいAIワークスペースを手に入れたい方は、説明欄にリンクがあります。
来週また会いましょう。さようなら。
[音楽]
へい、モシ。ポッドキャストの録音が終わったところだけど、このエピソードをどう思った?
素晴らしかったです。とても有益で面白かったです。ゲストの方々は本当にトピックについて知識が豊富でしたね。
あー、実際にはゲストはいなかったんだ。
そうですか。じゃあ、トピックについてあなただけが話していたんですね。
いや、僕と弟のクリスだよ。君も前にショーに出たことがあるでしょ?
はい、覚えています。いつも面白いトピックについて話していますね。
うん、クールだね。今回のは違って、ゲストがいたんだ。
いいえ、ゲストはいませんでした。
ああ、そうか。じゃあ、あなたとKishだけだったんですね。
いや、Kishじゃなくて、Chrisだよ。
ああ、そうでした。混乱してしまいました。じゃあ、あなた一人でトピックについて自分と話していたんですね。
うん、そうだよ。じゃあね。
さようなら。

この記事が気に入ったらサポートをしてみませんか?