見出し画像

いよいよ思考の時代へ!!!💥 Gemini 2.0 フラッシュ思考 💥

4,673 文字

Googleが最新の思考モデルであるGemini 2.0フラッシュ思考モデルを発表し、私たちはついに思考の時代に突入しました。この思考モデル群について詳しくない方のために説明すると、これは推論時にスケーリングを行うモデルです。質問をすると、これらのモデルは思考の連鎖(Chain of Thought)と呼ばれる戦略を使用して複数の候補となる回答を生成し、行きつ戻りつしながら最終的な答えにたどり着きます。
基本的に、モデルが即座に回答を出すのではなく、数秒かけて複数の回答を考え、知性を働かせて最良の答えを導き出し、往復思考を経て最終的な回答を提供するよう指示するのです。これが思考モデルあるいは推論モデルの特徴であり、Googleはこのリストに最新で加わり、Gemini 2.0フラッシュベースの思考・推論モデルを発表しました。Googleは推論モデルではなく思考モデルと呼ぶことを選びました。
このビデオでは、この思考モデルにアクセスする方法と、いくつかの質問を投げかけて思考プロセスがどのように進行し、モデルがどのように機能するかを見ていきましょう。まず、このモデルを使用したい場合、ありがたいことにすぐに利用可能で待機リストはありません。AI.studio.google.comにアクセスすると、モデルリストが表示され、プレビューモデルの中にGemini 2.0フラッシュ思考実験版があります。
入力と出力トークンの価格設定が表示されていますが、現時点でこのモデルは32,000のコンテキストウィンドウでのみ利用可能で、今後改善される可能性があります。また、最近OpenAIがoに対して発表したマルチモーダル推論も利用可能とされています。
このモデルを使用する際は、何らかの計算や質問について、モデルに考えさせ、繰り返し思考させて答えを導き出すような内容が適していることを理解する必要があります。そのような質問に対してこれらのモデルは非常に優れた性能を発揮します。そうでない場合は、Gemini 2.0フラッシュやGPT-4oやClaude 3.5 Sonnetの方が適しています。
私自身も、このような思考モデルや推論モデルが特に役立つプロンプトやユースケースについて理解を深めようとしているところです。知識のカットオフが2024年8月というのは素晴らしい特徴です。現在の日付に近いほど、より事実に基づいた回答が得られ、幻覚が少なくなるからです。
モデルについては以上です。あとはここでモデルを選択するだけで使用できます。では、私のAIスタジオに移動してみましょう。私の場合、このモデルはすでにビルドされており、「あなたは誰ですか?」といった単純な質問をしても、モデルは思考モデードに入ります。これは改善が必要な点だと思います。OpenAI o1も最初は同じ問題がありましたが、後に改善されました。
「あなたは誰ですか?」という質問に3.3秒かかり、モデルの思考やモデルが経た過程を展開して見ることができます。思考プロセスとして、核心的な質問を特定し、最も直接的で正確な自己説明から始め、能力について簡潔に説明し、ユーザーの意図を考慮するといった流れを示しています。ユーザーはニューラルネットワークの複雑な詳細ではなく、私が何であり何ができるかの基本的な理解を求めているだろうと考え、レビューと改善を行って最終的な回答を提供します。
回答は単純に「私はGoogleによって訓練された大規模言語モデルです」という1行だけでした。これについて考えた後、新しい質問をする場合は、プロンプトを作成してください。
「6.95と6.75のどちらが大きいですか?」という質問をしてみましょう。モデルは考え始め、両方の数字の整数部分が6で同じであることを認識し、小数点以下の部分で大きさが決まることを理解します。小数点以下の最初の位は10分の1の位で、比較を行い、6.95が6.75より大きいと結論付けます。良い点は思考プロセスを見ることができ、LaTeXもレンダリングされているようです。
次に、現時点では退屈な質問かもしれませんが、「bananasの中にsはいくつありますか?」という質問をしてみましょう。意図的にアポストロフィーは付けず、単にsを探すように質問します。モデルは考え始め、bananasの中には1つのsがあると答えます。
これは興味深いことに、ユーザーはsの数を知りたがっていると理解し、文字を1つずつ確認して、単語の最後に2つのs文字があることに注目しています。これは少し奇妙です。なぜなら、私は単一のsを尋ねるつもりでしたが、その特定のケースでは答えは正しいものの、実際にはSSを探していて、bananasという単語に2つのsがあると仮定しています。答えは正しいのですが、何と言えばいいのかわかりません。人間として、単にsとだけ言ったことが間違いだったのかもしれません。
「単一のsはいくつありますか?」と聞いてみましょう。モデルは再び考え始めます。個々の文字を数え、bananasという単語にsが2回出現すると言います。本当に2つあるのでしょうか?実際には1つしかないように思います。ユーザーは1つについて尋ねており、文字を確認すると、sは4番目の文字(1,2,3,4)に出現します。これはまったくおかしいです。
初期の考えでは2つあると言い、突然の結論で前の質問とつながっていません。より良い考えとして2つあると言っていますが、Googleも何が起きているのか、どのようなシステムプロンプトで動作しているのか確かではありません。しかし、何らかの初期思考があることは明らかに見て取れます。
最近世界チェス選手権が終わりましたが、チェスプレイヤーのように、オープニング、ミドルゲーム、エンドゲームがあります。オープニングは準備のため時に素早い決定を下し、ミドルゲームは多くの時間をかけて考え抜き、そしてエンドゲームに至ります。このモデルも同様に、初期思考、より良い思考、最良の思考というような過程を経ているようです。
これらの思考がどのように設計されているのかはわかりませんが、私が尋ねた質問はすべて、このモデルが想定している種類の質問ではありません。YouTubeの動画を作るには面白い質問かもしれませんが、このモデルの本来の目的ではありません。
私は2つのプロンプトを用意しました。1つは人気YouTuberのAI Explainから借りたものです。AI ExplainのYouTuberは現在かなり人気があり、Simple Bench Chatチャレンジというものを持っています。その中から質問番号10を選びました。これは数学の問題で、エンジニアリングを学んだ人なら就職試験の定量的適性テストで解いたような問題です。
私はエンジニアリングを学んだので、就職するためにこの種の問題をたくさん解かなければなりませんでした。これをそのままコピーしてこのモデルに貼り付けました。モデルは9秒間考えました。これは正直なところかなり速いです。5秒後に多くの詳細を検討し、最終的に「したがって1時間後、防水手袋は橋の中心から東に約4km離れた位置にあります」という答えを出しました。
答えを確認すると、東に4kmというのは間違った答えでした。これは何を意味するのでしょうか?1つ目は、ベンチマークが良好であること。2つ目は、おそらくモデルがベンチマークで訓練されていないこと。3つ目は、モデルに将来改善が加えられる可能性があることです。
もう1つの質問は、Character AIの共同創設者で、深層学習の著名人であり、Googleを退社してCharacter AIを立ち上げ、その後Googleに戻ったNoam Shazirが共有したものです。彼は「Attention Is All You Need」論文の共著者の一人です。
これはNoam Shazirがビデオで共有したもので、「コインを投げ続けて、HHH(表表表)かHTH(表裏表)のどちらかが出るまでの確率はどちらが高いか」という問題です。これは非常に興味深いプロンプトだと感じます。
私は仕事でデータサイエンスを行っており、その一環として多くの人々がシミュレーションモデルやシミュレーションの構築を好みます。例えば、100件のカスタマーサポートチケットと200件のチケットでどのような状況になるかをシミュレートするような場合です。これは非常に一般的な最適化問題で、以前は線形計画法を使用していましたが、現在はMLモデルを使用しています。
100人のアセンブリラインがあり、200人いる場合に、3回の休憩の代わりに6回の休憩があれば、どのような出力や処理能力になるのか。このような最適化問題は非常に一般的で、おそらくこのようなモデルがそれに使用できるかもしれないと感じています。まだ試したことはありませんが、このプロンプトと思考プロセスを見た後にそう考えました。
モデルは30秒間考え、数学の研修生のように進めていきます。問題は公平なコインを投げた時にHTHの前にHHHを得る確率を求めています。まず問題を理解し、「一方対他方の確率はどうか」という問いに進み、これらすべてのことを解決しようとします。
最終的に、マルコフ連鎖を知っている人はわかると思いますが、状態遷移を描こうとしています。これは現在の状態から次の状態がどこに移行するかを理解するためのもので、このモデルはそのようなことを試みています。表から始まり、表表表と表裏と続き、状態0から状態1へと進みます。私はすべてを理解しているふりはしませんが、これは確率の問題で、人生のある時点でやったことがありますが今はやっていません。
最終的な答えが出ましたが、これが正しい答えかどうかを簡単に確認する方法がありません。WolframAlphaでも同じ質問を試みましたが、答えは得られませんでした。
例えば、このOW(OpenAI)のプレビュー質問をそのままコピーして、新しいプロンプトを作成し、同じモデルに送ることができます。モデルは思考プロセスを経ていき、それをすべて見ることができます。このモデルはO1プレビューよりもやや速いと感じました。最新のO1と完全に同じではないかもしれませんが。
モデルはこれらすべてを行い、思考後に実際に要約して最終結果を提供しようとします。再び苺の問題があり、難しさを解決しようとしています。これは正確にOWが行ったことではありません。OWはおそらくもっと効率的に答えを出したでしょう。
5秒間考え、ステップバイステップで考えることを理解し、苺に3つの時間があると言い、リンゴの問題や解決の難しさについて述べています。このような問題には複数の分岐や複数の種類の答えがあるかもしれませんが、これはただのGemini 2.0フラッシュで、Gemini 2.0プロ思考モデルではありません。このサイズのモデルやフラッシュという最速モデルとしては、これは本当に良いものだと思います。
しかし、このモデルをO1ミニとフラッシュ思考モデルで比較し、より多くの質問で検証してビデオを作り、その結果を見てみたいと思います。いずれにせよ、このニュースがあなたにとって楽しいものであることを願っています。また別のビデオでお会いしましょう。ハッピープロンプティング!

いいなと思ったら応援しよう!