見出し画像

Deepseekは忘れて、中国からまた新たなMAXモデルが登場!

5,477 文字

アリババの一部門である大規模研究ユニットQuinから新しいモデルが登場しました。これはDeepseek R1のような種類のモデルではなく、思考や推論を行うモデルでもありません。通常のLLMですが、密なトランスフォーマーの構造と、エキスパートの混合を使用するこのモデルとの間には違いがあります。このビデオでは、このモデルについて私が知っていることすべてと、このモデルにアクセスする方法をお見せします。
私の唯一の不満は、このモデルが将来的にオープンになるという情報や、現時点での情報が全くないことです。これが単なる誤りであることを願います。そうでなければ、多くのモデルをリリースして良いPRを得て、オープンなフラッグシップモデルを決して公開しないという、誤った先例を作りかねません。これはmistalやstable diffusionのような企業で起きたことと全く同じです。私たちがそういう方向に進んでいくことを願いません。
しかし、それは一旦置いておいて、Quin 2.5 Maxが登場しました。これは数時間前にリリースされた真新しいモデルで、実際にリリースした人は、外で旧正月を祝う花火が上がっている中でこのツイートを書いてモデルをリリースしたと述べています。現在このモデルにアクセスする方法は、Quin chatという彼ら独自のプラットフォームを使用することです。すぐに使い方をお見せします。また、彼らのプラットフォーム内でAPIアクセスも可能で、hugging faceにデモも公開されていますが、これも彼ら独自のAPIに接続されています。オープンなモデルは一切ありません。
では、このQuin 2.5 Maxモデルとは何でしょうか。これは彼らによると、エキスパートの混合モデルをどこまでスケールできるかを探るための研究に基づいています。完全な初心者の方のために説明すると、私たちはテクニカルアテンションを使用するトランスフォーマーを持っており、このトランスフォーマーには多くのパラメータがあります。
ある時点で、より多くのデータ、より多くの計算能力を投入し、モデルのサイズを大きくすれば、モデルは自然により良い精度やパフォーマンスを発揮するということに気付きました。これはデータサイズとモデルサイズがモデルの知性の大幅な向上につながる可能性があるということで、私が思うに、かつてはイラス・スーらが先駆けとなり、OpenAIがこれが完全に可能であることを世界に証明した最大の成果の一つです。
現在彼らは、エキスパートの混合モデルで同じことを実現しようとしています。トランスフォーマーには大きく分けて2つのカテゴリーがあります。一つは密なモデルで、密なニューラルネットワークを持っています。もう一つはエキスパートの混合モデルで、入力される各トークン(各単語)が2つ、3つ、4つのエキスパートに送られます。これがエキスパートの混合モデルの仕組みです。パラメータは多くありますが、すべてのパラメータが各トークンに対してアクティブになるわけではありません。これが、エキスパートの混合モデルの展開が容易な理由の一つで、他にも多くの利点があります。
Quinチームが行ったのは、Quin 2.5 Maxという大規模なMoE(エキスパートの混合)モデルを作成したことです。驚くべきことに、モデルのサイズについての情報は開示されておらず、パラメータ数に関する情報もありません。代わりに、20兆トークンで学習されたと述べています。私は7-8ヶ月前に1兆のデータで学習されたモデルが登場した時、それが大きなニュースだったことを覚えています。これは20兆トークンです。その後、SFT(教師あり微調整)とRLHF(人間のフィードバックによる強化学習)による事後学習が行われました。
ベンチマークに関して、2種類のベンチマークが公開されています。一つは指示モデル(微調整モデル)で、もう一つはベースモデルです。初心者のために説明すると、ベースモデルはモデル学習プロセスから最初に生まれるモデルで、理想的には次の単語を補完することを目的としています。単に次の単語を補完したり予測したりするだけです。指示微調整モデルは、人間が尋ねる質問に答えるように微調整されたモデルです。
例えば、ベースモデルでは「イーロン・マスクに関するジョークを書いて:」と入力すると、次の行を補完するだけかもしれません。しかし指示微調整モデルでは、「イーロン・マスクに関するジョークを書いてくれませんか?」と質問することができ、答えを返してくれます。「インドの首都は何ですか?」と尋ねると答えてくれます。しかしベースモデルの場合は「インドの首都は」と入力すると、「ニューデリー」と補完するでしょう。
これがベースモデルのベンチマークで、これが指示微調整モデルのベンチマークです。ご覧のように、Quin 2.5 MaxはDeepseek V3(これ自体が非常に大きく、業界をリードするオープンモデルの一つです)、Llama 3 405億パラメータの指示モデル、GPT-4o、Claude 3.5 Sonnetと比較されています。
これら5つのモデルを見ると、ベンチマークの漏洩や汚染が少ない高品質なベンチマークの多くで、このモデルは良好な性能を示しています。Arena-hardでは89.4を記録し、これはClaude 3.5 Sonnetよりもはるかに優れています。コーディングに関して、LifeCodebenchではClaude 3.5 Sonnetとほぼ同等です。MLU-proではGPT-4とClaude 3.5 Sonnetよりもわずかに劣りますが、Livebenchでは再びClaude 3.5 Sonnetよりもはるかに優れています。
ベースモデルに関しては、このモデルは他のすべてのモデル、つまりQwen 2.5 720億パラメータモデル、Deepseek V3モデル、Llama 3 405億パラメータモデルよりも驚くほど優れています。これは何を意味するのでしょうか?このモデルを微調整目的で使用する場合、それがスタイルであれ、特定のドメインであれ、コーディングであれ、このモデルの微調整版は既存の他のモデルよりも優れた性能を発揮する可能性が高いということです。
先ほど述べたように、このモデルがオープンになるかどうかについての情報はなく、APIへのアクセス方法など他の情報は提供されています。モデルを使用したい場合は、Quin chatを使用できます。中国とデータ保存に関して多くの議論がありましたが、これを使用する場合、データは中国にあるアリババのサーバーに保存される可能性が非常に高いということを覚えておいてください。アメリカの企業に対してはこういう指摘をしていませんが、もしかしたらアメリカの企業に対してもするべきかもしれません。ただ、知っておくべき情報として共有しています。
では、現時点で私たちが慣れているような非常に単純な質問をしてみましょう。使用方法は、ここをクリックしてQuin 2.5 Maxモデルを選択します。サイズやコンテキストウィンドウについての情報はありません。現時点では単にチャットするしかありません。Claudeのアーティファクトのような機能があり、何かを尋ねるとレンダリングして表示してくれます。
では、シンプルなHTML CSS JavaScriptのページをリクエストしてみましょう。「Shadcn UIにインスパイアされたシンプルなランディングページが欲しいです。これは、企業でAIを設定するのを支援する『Little Coder Labs』という会社のためのものです。」これだけです。多くの情報は与えません。どうなるか見てみましょう。
現時点ではHTML CSS JavaScriptはありませんが、これは現在すべての企業の夢のようなもので、Lovable DataやButtonなど、多くの企業が同じようなことを試みています。このような種類のソフトウェアを使って最初のランディングページをデザインできます。
今、私たちはQuin 2.5 Maxモデルでこれができるかどうかを確認しています。この質問をする別の理由は、ベンチマークではコーディングが得意だと思われるからです。Claude 3.5 Sonnetが依然として最高のパフォーマンスを示している分野で、これが自然な方向性だと考えています。
アーティファクトが完了しました。非常に基本的な、少し基本的すぎるかもしれないものができました。これが私たちが得たウェブサイトです。感心したかというと、必ずしもこのデザインに感心したわではありません。シンプルと言ったからかもしれません。「デザインが退屈すぎます。Framerのような美しいものにして、アニメーションなども加えてください。」
非常に大規模なエキスパートの混合モデルとして、このスピードでロードできることは印象的です。これはDeepseek R1モデルについても考えていたことです。モデルを構築しただけでなく、モデルを展開してスケールでサービスを提供できているという事実も重要です。一方でClaudeのサーバーは常に「Claudeは忙しい」というメッセージを送っています。何が起きているのか、とても興味深いですね。
では、完全にロードされるのを待ちましょう。スピードを褒めた後、スピードが少し落ちたようです。アーティファクトが完了しました。これは良いですね。私のプロンプトが優れていなかったのかもしれません。
これは素晴らしいです。いくつかのアニメーションがあり、グラデーションベースのランディングページがあります。これは現時点でインターネットのAIコンサルティングのデフォルトとなっています。カスタムソリューション、シームレスな統合、とても良いです。
では、別の質問をしてみましょう。デフォルトで2.5 Plusに変更されているので、Maxに変更します。「Pythonでフラッピーバードゲームを作成するのを手伝ってください。画像は使用せず、コードをコピー&ペーストして実行できるようにしてください。」
これも非常にシンプルで、このシステムにとって簡単なはずですが、コードを取ってPython環境に置いたときに、変更なしで実行できるかどうかを確認したいと思います。これは、これらのエージェントでチェックすることに興味を持っている点の一つです。誰かにコンピュータをコーディングに使用できると伝えると、時々非常に難しくなることがあります。
cursesを使用していますね。「cursesは止めて、pygameを使ってください。」これは前もって言うべきでした。シンプルな実装に変更しているようです。cursesの代わりにpygameを使用しています。pygameはすでにインストールされているので、新しいライブラリをインストールする必要はありません。
ご覧のように、実行方法の説明を提供しています。コードをゼロショットで実行できるかどうかをチェックしたいと言っていました。これについては別のチュートリアルを作成するかもしれません。これは、コードエディタのエージェントシステムを構築する上で非常に重要な点です。長時間これらのコードをデバッグしたくないからです。単に使用したいだけです。そうでなければ、Stack Overflowなどからコードをコピーしてここに貼り付ける方が簡単です。
スピードを褒めた瞬間から、少し遅くなったようです。あるいは、アメリカの人々が中国からまた新しいモデルが登場したことに気付いたのかもしれません。
コードをコピーします。実行方法の説明もありますが、まだ見ません。スペースバーで制御するようですね。Visual Studio Codeを開きます。新しいファイルを作成してペーストし、Pythonファイルとして保存します。「flappy_bird.py」として保存して実行します。
申し訳ありません、スコアは更新されていますか?ああ、ヒットした時にエラーが発生しました。もう一度実行してみましょう。やめてください...はい、私はこのゲームが苦手です。でも、パイプにヒットした時にエラーが発生しました。これは起こるべきではありませんでした。これ以上のテストはせずに、皆さんにテストしていただこうと思います。
情報はあまり多くありませんでしたが、このモデルにワクワクしました。ただし、これがクローズドモデルなのか、オープンモデルなのか、オープンになる計画があるのかわからないのは少しフラストレーションがたまります。すべての企業がモデルをオープンにすべきだとは言いません。しかし、オープンソースの旗手として自らを確立した企業(彼らは自身で主張したわけではなく、私たちがそう信じていた)は、そうあり続けるべきだと私は信じています。
どうなるか見てみましょう。技術レポートとモデルがオープンになるかどうかを楽しみにしています。しかし今のところ、新しい2.5 Maxモデルを楽しむことができます。これはまた、エキスパートの混合モデルがスケーリング可能で、ディープラーニングの将来において興味深い可能性があることを証明しています。
また別の動画でお会いしましょう。ハッピープロンプティング!

いいなと思ったら応援しよう!