見出し画像

実験的プロトタイプLLM: QwQ 32B - 究極の性能

2,423 文字

コミュニティのみなさん、こんにちは。左側にOpenAIのプレビュー版、右側にQanの最新モデルQwQ 32Bプレビュー版を表示してます。
両方に同じテストを実施してみましょう。これは私の極限ロジックテストで、7つの工芸品、7つの魔法分野、7つの使い魔があって、たくさんの手がかりがあります。指示は単純で、7×4のマトリックスにすべてを配置するだけです。
では実行してみましょう。QwQでは、システムの思考過程が見えますが、O1では非公開です。システムが何をしようとしているのかの手がかりを見せたくないんでしょう。どちらが先に終わるか見てみましょう。QwQの方が興味深いですね。読めるからです。
はい、完了しました。異なる手がかりのセットで、正しい組み合わせ、正しい順列を見つけようとしています。議論のパターンがどう展開していくかを見るのも面白いですね。読むのが速くないので、みなさんにも見ていただきたいと思います。これはリアルタイムです。
O1プレビューはまだ考えていて出力がありません。QwQは内部を見せてくれて、最終的な割り当ても出しました。スピードテストの勝者はQwQです。
O1プレビューはどうなってるんでしょう?まだ考えてます。両方とも新規起動で、以前にテストしたことはありません。O1プレビューの結果を待っていますが...OpenAIは毎週か毎月、モデルを少し変更していて、今回は特にモデルのパフォーマンスを変えたようです。
「思考が完了しました。違反の可能性があるため、別のプロンプトで再試行してください」...冗談でしょう。恐れることは何もないのに、ナンセンスです。
では、推論プロセスの詳細な説明を求めてみましょう。明確な形で最終的な回答を提示してくださいと。ああ、OpenAIのポリシーに違反するとのこと。競合他社がほぼ追いついているのに、もう少し大人になってほしいものです。
工芸品を集めて、可能性を整理し、手がかりをつなぎ合わせ、オプションをマッピングし、魔法使いの特徴をマッピングし...55秒かかりましたが、ようやく答えが出ました。
では、両方の結果を比較してみましょう。アヴァロン、クリスタル・オブ・タイム、フェニックス、魔術...ブレンドル、アムレット・オブ・ドリーム、サラマンダ、占術...面白い違いが出てきました。
グリフィンとペガサスが入れ替わっています。基本魔法と治癒魔法も交換されています。エロリアは、ここでは治癒を、こちらでは基本魔法を持っています。
ガロリア、スタッフ・オブ・エレメンツ、錬金術、ドラゴンは一致しています。重要な違いを一つずつ確認していきましょう。
セレスティアの魔法使いは幻術を学び、アムレット・オブ・ドリームは持っていません。エロリアはオーブ・オブ・シャドウを持ち、死霊術や錬金術は使いません。
タイム・クリスタルを持つ魔法使いはフェニックスを持ち、ドーンやガロリアの出身ではありません。魔術師はアヴァロンの出身で、スタッフ・オブ・エレメンツは持っていません。
グリフィンの使い魔を持つ魔法使いは治癒魔法を学んでいます。QwQが正解のようです。フェントの魔法使いはリング・オブ・レルムを持っていますが、サラマンダの使い魔は持っていません。
死霊術師はミラー・オブ・トゥルースを持ち、ブレンドルの出身ではありません。ドーンの魔法使いはユニコーンの使い魔を持ち、占術は学んでいません。
錬金術師はガロリアの出身で、シークレッツの書は持っていません。占術を学ぶ魔法使いはサラマンダを持っています。スタッフ・オブ・エレメンツはドラゴンの使い魔を持つ魔法使いが所持しています。
ブレンドルの魔法使いは治癒を学んでいません。ペガサスの使い魔を持つ魔法使いは基本魔法を学んでいます。シークレッツの書はアヴァロンの魔法使いは持っていません。アムレット・オブ・ドリームを持つ魔法使いはブレンドルの出身です。
驚くべきことに、これは両方とも正解なんです。検証してみましょう...両方の解が正しいということは可能なのでしょうか?
はい、両方の解が制約を満たしています。主な違いは、エロリアとフェントの要素にあります。オーブ・オブ・シャドウとリング・オブ・レルムは両方の場合で正しく割り当てられていますが、基本魔法と治癒、そしてペガサスとグリフィンが入れ替わっています。
これは手がかりが、グリフィンとペガサスの使い魔に関連する領域について具体的に指定していないためです。両方の割り当てが可能で、どの手がかりにも矛盾しません。
QwQ 32Bプレビューは、Qanチームが開発した実験的な研究モデルで、高度なAI推論能力に焦点を当てています。最初の試行で正解を出し、GPT-1プレビューが見つけた解とは異なる、もう一つの正解を見つけました。
これは、GPT-1プレビューがもはや単独ではないことを意味します。QwQ 32Bと首位を分け合うことになりました。このパワフルな推論モデルは、Spacesで無料で試すことができ、おそらく一般に利用可能になるでしょう。
数学的なパズルやなぞなぞも解けるようで、次回の動画でO1プレビューとQwQ 32Bの違いを見てみたいと思います。
ただし、これは1つのプラットフォームで1つのモデルの1つのテストに過ぎないことに注意してください。統計的に有意な結果ではありません。通常は20回、50回、100回とテストを実行して性能を理解します。
1〜2週間後には、両システムがさまざまなオープンベンチマークで利用可能になり、AIコミュニティがパフォーマンスを評価できるようになるでしょう。QwQの性能が本当にOpenAIの最新O1プレビューに匹敵するかどうか、より確実な結果が得られるはずです。
私と同じくらい、このテストを楽しんでいただけたなら幸いです。現在、地球上で最高の推論AIシステムの座を2つのモデルが分け合っています。

いいなと思ったら応援しよう!