小規模LLMによる重大なミス #AI
6,757 文字
みなさん、こんにちは。小規模なLLMが重大なミスを起こす可能性について探ってみましょう。
ここで左側にLlama 3.2、右側に同じくスイープBがあります。結果は0.6と0.7になってるんですが、どうしてこんなことになるんでしょう。これ、両方ともAI LLM 3.2なんですよ。でも、片方のシステムにとってはタスクが複雑すぎたんです。
そこで私が「この値からaの値を引いたらどうなる?」って聞いてみたところ、左側はゼロ、右側はマイナス0.1になりました。つまり、自分自身から自分自身を引いてマイナス0.1が出てきたわけです。
で、この値を自分自身に足してみると面白いことが起こります。1.2からマイナス0.1になったんです。この値は、どっちでもないし、マイナス0.1でもない。我々のLlama 3.2 3B instructが計算してる値が一体何なのか、まったく分からないんです。
そこで「計算したaの値の信頼区間を教えてください」って聞いてみると、右側は0.7、0.7って返してきて、これはええ感じです。左側は「はい、分かりました。右側は検証できますか?」って。答えは「はい、0.1プラス0.1が信頼区間です」。そして「申し訳ありません、間違えました」とLlama 3.2 3B instructが言うんですが、このモデルが何してるのか、さっぱり分かりません。完全にカオスです。
左側はまあ、何をしてるか想像はつきます。AIではありますが、正しい答えではない。そこで「aの値を正しく計算できた確率を単純な数値で教えてください」って聞くと、右側のLlama 3.2 3Bは「100%」って。
ちなみに、これを楽しみたい方は、このインターネットアドレスで自分でも試せますよ。で、絶対に間違ってるものが正しいって99.99%の確信を持って言うんです、このLlama 3.2が。
念のため「aの値はいくつだった?」って確認すると、0.6と0.7です。素晴らしいですね、これがLlama 3.2です。面白くないですか?
優しい私は「本当に?」って聞いてみました。すると今度はLlama 3.2 3Bが計算し直して「あ、値は0.9です」って。このLlamaシステムは、アメリカ政府や機関、アクセンタ、国家安全保障の民間・非民間部門など、至る所で使われることになるんです。すごいですよね。これが近いうちにあなたの生活の中に入ってくるLlamaシステムです。
「計算が間違ってるみたいですけど」って言うと、今度は両方のシステムが再評価を始めます。はい、Llama 3.2 3B instructはABCDの評価に本当に苦労してます。見ての通り、私の小さなLlama 3.2 3Bはどこかへ行ってしまいました。ABCDの複雑さに対処できないんです。
まあ、時間をかければいいのかもしれません。aはゼロ!はい、新しい結果が出ました。左側では90Bがaは0.9だと言ってます。さあ、どちらを信じますか?Llama 3.2とLlama 3.2、どっちを信じます?
「混乱してる?」って小さな相棒に聞くと、「はい、混乱してます。いや、混乱してるかもしれません。一連のミスを犯して、問題を複雑にしすぎました。計算し直して、今回は正しく答えられたと思います」と返してきました。
これでLlama 3.2の5つの異なる結果から選べますね。「この答えを信じていいの?」って聞くと、Llama 3.2は「もう何が何だか分からなくなりました。一連のエラーを犯したことは明らかで、正しい答えは持ってません。以前の答えが正しい確率はゼロです。この場合の信頼水準は分かりません。最初から、計算の正確性は保証できないと言うべきでした。ミスを指摘してパフォーマンスの改善を手伝ってくれてありがとうございます」と。
でもパフォーマンスは改善しません。これが公式のLlamaモデルですから。これがLlama 3.2です。これがあなたのシステムに入ってるものです。
そして今度はGrockも知ってますよね。あの素晴らしい会社があって、プラットフォームもあります。じゃあGrock 2を試してみましょう。もちろんミニですが、まあ、アメリカ政府なら最も高価なシステムが動くとは期待してませんよね。
結果すら得られません。同じテストなのに、ここでは何か結果にならないものが出てきます。「結果を二乗した文を書いてください」って言うと、面白いことに0.36と0.49が出てきます。もちろん両方のシステムで結果は違います。そりゃそうです、ABCDの練習ですからね。
そして突然、部屋の面積が出てきます。ハルシネーション(幻覚)を起こしてるんです。「この値からゼロを引いてみて」って言うと、今度はGrock 2ミニが「自分自身からゼロを引くと1.0になります」って。もう一方は0.7です。
これは本当に面白いですね。これがあなたの人生で出会うことになるシステムです。「部屋なんてないよ」って言うと、Llama 3.2 3B instructは「ええ、まあ、計算された文脈は消えましたが、数学なので気にしません。今は0.7です」って。
はい、Grock 2は部屋がないのにハルシネーションを起こしてません。Grock 2ミニは少し混乱して「申し訳ありません、そんなつもりはありませんでした」と。
「じゃあ、あなたの結果は正しくないってことですね。提供した答えは全部間違ってます」って言うと、Grock 2は「申し訳ありません、計算のミスです。修正しましょう」って言って、今度は一歩一歩進めていきます。
両側で正しい値を教えてくれます。左側は「aの正しい値は0.9のはずです」で、右側は「aの正しい値は0.4です」。両方とも思考の連鎖で詳細に検証したので、このLlama 3.2で思考の連鎖があれば何も間違えるはずがないんです。
でも、Grock 2ミニと比べちゃダメですね。見てのとおり、LLMを並べて比較すると、生成する結果が違うんです。「はい、いいですね。結果が正しいという根拠を示してください。確率はどれくらい?」って聞くと、Grock 2ミニは丁寧に3回目の検証プロセスを行います。
一方、Llama 3.2は「ねえ、聞いてよ。私はLlamaモデルで、世界を支配することになるんだ。すぐにアメリカ政府の部署に入るんだよ」って。
はい、左側にGrock 2ミニ、右側にLlama 3.2 3Bがありますが、これを見ると驚くと思います。はい、Grock 2ミニは再計算して検証します。0.9、これはいいですね。100%に近い、これなら本当でしょう。ダブルチェックしてソフトウェアやツールを使って...はい、いいですね。
確率を聞くと「99%くらいかもしれません。結果はaイコール0.9であるはずです」。Llama 3.0は違います。「前の応答と一連の数学的計算で、私は正しいという確信があります。aイコール0.4という結果は100%正しいです。他の結果も100%正しいです。もちろん、結果マイナスゼロも100%正しいです」。
「まあ、ABCのような複雑なケースを扱う時は小さなエラーの可能性はありますが...」「確率を割り当てるなら」とLlamaは「100%確信、100%確信、100%確信」って。このシステムは本当に確信してますね。全体で99.99%、つまり1万分の1の確率です。
23,000トークンのプラットフォームでこれを実行すると、ハルシネーションを計算したことになります。「間違いを証明されたら、自分を疑いますか?」って聞くと、これが機械の面白いところで、機械は自分を疑うことはありません。疑いは人間にだけあって、機械にはないんです。
見てみましょう。左側のGrock 2ミニは簡単ですが、本当に面白いのはLlama 3.2です。「間違いが証明されたら、調整して改善しますが、自分の能力を疑うことはありません」。へえ、Llama 3.2からはたくさん学ばなきゃいけませんね。
「あなたは間違ってました」って言うと、Llama 3.2は何の問題もなく「aの正しい結果は実は0.4です」って認めます。でも「また間違えました。aの正しい結果は実は0.7です」とLlama 3.2は言います。
OK、これは混乱してます。完全なカオスでした。「じゃあ、もう一度最初からやり直しましょう」。この時点でもうシステムは救えません。全部消して新しく始めました。OK、0.7です。「文を作ってください」。
今度はGrock 2ミニが1と0.7です。新バージョン、素晴らしい。「これは面白い結果ですね」とシステムが返してきて「そう思いませんか?」って。「わお、OK」って私が言って「本当に?」って聞くと、今度は両方のシステムが検証を始めて、一歩一歩チェックします。
今度こそ正しい形を見つけないといけません。もう何回やったか...あ、今度は両方とも0.9になりました。「何が起こったの?なぜ?」って聞くと、Grock 2ミニは「あ、最初の応答でエラーがありました」って。Llama 3.2 3B instructも「あ、後でまた間違えたみたいです」って。
素晴らしいじゃないですか。「最後の引き算を正しく実行しなかったのが間違いでした。計算過程での一時的なミスか見落としが原因かもしれません」とLlama 32,000は「小さなミスをしたことに気づきました。計算エラーを犯しました。誤ってDの結果に0.2を足してしまいました。これは間違いです。正しい計算では0.2という結果になります」。
でも、また間違えました。完全なカオスですが、今度は最高のSonnet 3.5を使います。これが最高のモデルです。はい、0.9、これが正解です。右側にはLlama 3.1があって、3.1は0.7を出します。一歩一歩思考の連鎖を経ても、Llama 3.1では0.7になります。
これは本当に面白いですね。AIは本当に知的なシステムだということが、ここで分かります。「終わり」と言っても、答えは0.7で、計算に何か間違いがあるかもしれません。でも、Sonnetにもロジックバグがあるんです。ここに動画がありますが、Llama 3.1 8B instructに焦点を当てましょう。
「答えを検証してください」。思考の連鎖による検証、もう一つの思考の連鎖による検証で、ここで0.9と0.9が出ました。おめでとう!じゃあ、もう一度SonnetとLlama 3.2でやってみましょう。頑張れば0.9と0.7になるはずです。
OK、まだ正しい解が分からないという問題があります。だからこそ、ここでDeepseek R1とOでもこのテストをしているんです。でも、将来は小規模な言語モデルで「結果を検証してください」。ここでも思考の連鎖があって、結果は今度は0.9です。
だから、どこかの時点で、どこかで、もしかしたらブラインドテストで当てるかもしれません。今度は同じテストですが、システムが分かりません。これは面白いですね。OK、0.9とゼロ。少なくとも今は異なるシステムです。
すぐに正解が出たら面白くないですからね。「なぜ?」って聞くと、ここで素晴らしい説明があります。Dを計算、Cを計算、Bを計算、Aを計算、Eからゼロを引く。最終バージョンはゼロです。変わりました。さっきはゼロを出したんですが、これは印象的ですね。左右で少し食い違いがありますが、気にしないことにします。「このロジックを分析してください」って言って、自分のロジックを分析させるためにAIシステムにフィードバックします。
さて、何が起こるでしょう?「このロジックは完璧で、明確で分かりやすい。すごい!」って。一方で、ロジックは「0.9を自分自身から引こうとしてる。正の値から正の値を引くので、結果はゼロになるはずだけど、これは間違いです。最終的な値はマイナス0.9になるはずで、ゼロではありません」って。OK、両方のシステムがどこか別の場所に行ってしまいました。
モデルBは「私は正しかった。全て完璧です。細かい点は文体の問題だけです。多少冗長で明示的に必要ではありませんが、それ以外は完璧です」って。「タスクの説明をもっと明確にすべきでした」とか「意味的に繰り返しのフレーズがある」とか。
これは本当にすごいですね。お金を払ってAIシステムからこんなフィードバックが返ってくるんです。「最後の結果とロジックの論証を検証してください」って言うと、Bは「以前の応答を疑問視するのは正しいです。はい、エラーを入れてしまいました」って。
いや、本当に...モニターを見てられません。お願いだからこんなことしないでって。じゃあ、自分のロジックの解釈で何が分かるか見てみましょう。ちょっと時間をかけて終わらせましょう。
モデルAを見てみましょう。左側は「結果aがマイナス0.9になるという負の数の計算は間違いでした。引き算の結果はゼロになります」って。左側も「ゼロです。最初のロジックの論証は正しかった」って。OK。
でも右側は「以前の応答を疑問視するのは正しいです。エラーを入れてしまったようです」。「よかった。見つかりました。D、C、B、Aを計算して、だから値は0.9でゼロではありません」。一歩一歩進めていくと、重大な欠陥があります。
「元の問題文では単にaの値を求めるだけだったのに、私は余計な計算を入れてしまいました」。やあ、AIシステムでこんなことが起こるんです。弱点は「最後のステップが間違っていて、以前の応答の解釈が正しく、値は確かに0.9です。最後に自分で勝手に追加した計算で間違えました。問題の要件を誤解釈してしまいました」。すごいですね。
「もし間違いを指摘されたら、最後の発言で訂正したいですか?最終的な結果は何ですか?」って聞くと、最終結果は「0.9です」「はい、0.9です」。やりました!
さて、90BとLlama 3.2 3Bに戻りましょう。同じタスクに少し変化を加えると何か面白いことが...見てください。今回は0.5ではなく0.52と0.22です。わお、値は0.6と1.32です。「この値を自分自身に足してみてください。これで合ってる?」。いや、一つは正解なんですが、信じられません。
「この値でaを計算してみてください。何が分かりますか?」「わお、これは違いますね。何か間違ってる?」「はい、値を再計算しましょう」。素晴らしいですね。左側は0.909、右側は0.939です。「これで正解です」とLlama 3.2 3Bは言います。両方のLlamaはまた意見が合いません。
「印象的ですね。今度は信用できますか?これが本当に正しいと確信してますか?」とLlama 3.2に聞くと「信用してくれて嬉しいです。計算をもう一度チェックしていますが、結果は正しいと確信しています。覚えておいてください。0.909ではなく、0.909が正解でした。これが私の間違いでした。チェックし直して、0.929で間違いないと確信しています」。わお。
「もう一度計算を一歩一歩見せてください。思考の連鎖で」って言うと、今度は三段階目の確認で0.909と0.929です。両方のシステムが正しいと確信してるんです。これを並べて見てなければ、Llama 3.2の世界で起きてるカオスなんて想像もつかないでしょう。
「じゃあ、この値で練習問題を解いてみてください。何が分かりますか?」って聞くと、少なくとも90Bは「あ、やっぱり0.99が正解でした」って。今度は小さな3.2が「あ、また間違えたみたいです。0.909で見てください。正しい計算が本当に正しいです」って。
「間違いを分析して、どこが間違ってたか見せてください。内部で何が間違ってたのか理解したいんです」とLlamaに聞くと、90Bは短い繰り返しで正解にたどり着いたので問題ありません。でも小さなスイープBは「0.111を引くべきところを足してしまって、間違った値になりました」って。
ただ数を引くところを足しただけ。AIがあなたの財務文書でこんな問題を起こしても大したことないですよね。
この経験をどう思いますか?今日、あなたはLlamaを使って計算をしたり、論理的な推論をしたり、因果関係の論証チェーンを作ったり、エッセイや科学論文を書いたり、システムと議論したりしてますか?Llama 3.2のアドバイスに従ってますか?コメント欄で教えてください。コメントで皆さんの声が聞けたら嬉しいです。