見出し画像

NVIDIAの新しいオープンソースモデルがGPT-4とClaude 3.5 Sonnetを凌駕...

4,990 文字

ほんならNVIDIAが新しいモデルをリリースしたんやけど、これがめっちゃすごいねん。llama 3.1 neaton っちゅう70億パラメータのモデルなんやけど、なんとこれが全部のクローズドソースモデルを打ち負かしてもうたんや。
もう一回オープンソースが、クローズドソースの努力を追い抜いて、最先端のモデルになってもうたみたいやな。
今回の動画では、このモデルの開発に使われた新しい技術について詳しく見ていくで。彼らがどうやってこれを成し遂げたんか、結構面白い話やと思うわ。
ほな、ここに書いてあるんを見てみよか。「Al Lama 3.1 neaton 70b instructモデルが、LM Arena AIのarena hardベンチマークでトップになった」言うてるわ。
ほなら、具体的に何をしたんか見ていこか。
基本的にな、NVIDIAはLlama 3.1モデルを基本モデルとして使って、そこから強化学習みたいなんを使ってポストトレーニングをしたんや。
その強化学習のおかげで、このモデルが最先端のクローズドモデルを追い抜くことができたんやろね。
ちなみに、この動画では私自身のテスト結果も載せとるんやけど、それがまた驚くべき結果やったんよ。
AIがもっとすごいことになりそうやな。
実際のベンチマーク結果を見たい人のために言うとな、ここでllama 3.1 neaton 70bが、MT-benchで85.57%のスコアを出しとるんが分かるやろ。これ、今までの全モデルを追い抜いとるんや。
これがびっくりするんは、Claude 3.5 Sonnetを超えただけやなくて、GPT-4も超えとるっちゅうことなんや。GPT-4っちゅうんは、OpenAIが最近発表した、テキスト以外のこともできる最先端モデルやったんやで。
それに、よく見たらな、Llama 3.1 45b instructモデルも超えとるんや。これ、めっちゃでかいモデルやのに、なんか特別な訓練方法で、クローズドソースモデルを追い抜くことができたみたいやな。
つまり、モデルの訓練方法によって、結果がめっちゃ変わってくるっちゅうことやな。
で、Hugging Faceの説明に載ってた論文によると、他のモデルと全然違うことをしたんは、人間のフィードバックに合わせてAIモデルの調整を改善するための、高度な報酬モデルを導入したことやねん。
後で詳しく説明するけど、人間はこのモデルの応答をめっちゃ気に入ってるみたいやで。
研究者たちは、報酬モデリングの2つの主なアプローチ、Bradley-Terryスタイルと回帰スタイルに取り組んだんや。
この2つの方法は、指示に従う能力に基づいて報酬スコアを割り当てることで、AIモデルがより役立つ正確な応答を提供するようにガイドするんに使われるんや。
Bradley-Terryモデルは、プロンプトへの応答を比較して、どっちがええかを特定することに焦点を当てとるんやけど、回帰モデルは、役立ち度や正確さなどの基準に基づいて、応答の数値スコアを予測するんや。
でも、ここで問題が出てきたんや。この2つのモデルは、全然違うタイプのデータで訓練されとるから、直接比較するんがめっちゃ難しいねん。
ここでNVIDIAの天才的なアイデアが出てくるんや。
この問題を解決するために、論文の著者たちは「Help Steer 2」っちゅうデータセットを作ったんや。これには、Bradley-Terry用の選好ランキングと、回帰用のLikertスケール評価の両方のデータが含まれとるんや。
この新しいデータセットのおかげで、2つのアプローチの間のギャップを埋めることができて、もっと包括的な比較ができるようになったんや。
結局のところ、このモデルが最先端モデルを超えられた理由は、AIの出力をスコア化してモデルの応答をガイドするのに使われる報酬モデルを使ったことと、Help Steer 2っちゅう新しいデータセットを使ったことなんや。
このデータセットには、選好ランキングと数値ランキングの両方が含まれとって、報酬モデルをもっと効果的に訓練するのに役立ったんや。
この新しい組み合わせた報酬モデルは、Reward Benchっちゅうベンチマークでトップスコアを達成したんや。
この方法を組み合わせることで、最先端のシステムを上回ることができたんやな。
NVIDIAのモデルのArena Hard Autoでのパフォーマンスも見てみよか。
Arena Hard Autoっちゅうんは、指示調整されたLLMの自動評価ツールで、Chatbot Arenaから500の難しい質問が含まれとるんや。
GPT-4 Turboを審判として使って、モデルの応答をベースラインモデルと比較するんや。
Arena Hard Autoは、人気のあるオープンエンドなLLMベンチマークの中で、Chatbot Arenaとの相関性と分離性が最も高いんやで。
この結果を見てみると、めっちゃ面白いことに気づくわ。
このリーダーボードでは、スタイル制御なしの場合、llama 3.1 neotron 70b instructのスコアがGPT-4 Turboや他のモデルより2ポイント上やねん。
スタイル制御っちゅうんは、例えばChatGPTにメッセージを送ったときに、特定のフォーマットで応答を返してくるみたいなもんや。
データ自体は同じでも、別のAIシステムとのチャットでは、フォーマットが変わることがあって、それが人間にとっての役立ち度の評価に影響することがあるんや。
例えば、ある応答では箇条書きの方がええし、別の応答では1文で答えてほしいこともあるやろ。
ここで見られるように、llama 3.1 neotron 70b instructは、GPT-4 Turboより2ポイント上で、他のモデルよりも上にあるんや。
驚くべきことに、このリストにはたくさんのモデルが載ってるけど、Geminiの最新モデルは見当たらへんな。そのモデルの結果も見てみたいところやけど。
01 miniと01 previewの直後にスコアが出てるのも、めっちゃ興味深いわ。
もちろん、スタイルを除外すると、この差はもうちょっとはっきりするんやけど、70億パラメータのモデルがこれだけ良い成績を出せるのは、やっぱりすごいことやと思うわ。
これは、モデルが完全に訓練された後でも、うまくガイドすれば、まだまだ改善の余地があるってことを示してるんやな。
最先端に追いつく可能性もあるかもしれへんな。こういうのを見ると、本当に驚かされるわ。
ほんで、みんなが気になるかもしれへんのは、NVIDIAがこのモデルを最先端より良くしたのはわかったけど、ベンチマークはええとして、実際に質問してみたらどうなんやろか、ってことやな。
もちろん、自分で試してみるのが一番やけど、どんな質問をするかは完全に自由や。
私がしたかったんは、3日前に動画で紹介した研究論文から質問をしてみることやった。
みんながその動画を見てるわけやないから知らんかもしれへんけど、GSM-NOOPっちゅうもんがあるんや。
これは、Appleが「LLMは推論せえへん」って言うた研究論文からのもんや。
ここに載せとる最初の質問は、推論ベースの質問で、その中に全く関係のない情報が含まれとるんや。
ここに書いてあるのを見てみ。Liamが学用品を買いたがってて、ピンクでハイライトされとる部分が関係ない情報なんや。
「インフレのせいで去年の価格が10%安かったと仮定すると、今いくら払うべきか」って書いてあるけど、質問の最初の部分に既に必要な情報が全部書いてあるんや。
「これが今の商品の価格や」って。
で、モデルが混乱するかどうか見るために、インフレに関するランダムな情報を追加しとるんや。
面白いことに、OpenAIの最高モデルである01 previewが、残念ながら混乱して間違った計算をしてしもうたんや。
これは、推論とその手順に報酬を与えられたモデルでよく起こることやと思うわ。
時には推論の手順なんて必要なくて、ただ質問をよく見て、何が求められとるかを理解するだけでええこともあるんやな。
私はこの質問を70億パラメータのモデルに投げかけてみたんや。最初から正解するかどうか見たかってんけど、正直言うて、このモデルも最初は間違うてもうたんや。
でも、これでこのモデルがダメやってわけやないで。この研究論文の結果は完全に予想外やったし、ほとんどのモデルがこの質問に間違えるんや。
せやけど、私がしたんは、別の研究論文からの情報を使うことやった。
その論文では、簡単なことを言うてるだけなんやけど、みんなもこれを試してみるべきやと思うわ。
難しい推論が必要な質問でAIに良いパフォーマンスを出してほしいときは、この小さなステップを踏んでみてや。そうすれば、モデルからの出力がぐっと良くなる可能性が高いんや。
私がしたんは、ただ「質問をもう一度読み直してください」って言うただけや。
どっかの研究論文かブログ記事で見たんやけど、LLMに質問を読み直すように言うと、推論能力が10〜15%改善するって書いてあったんや。
それで、私はこの小さなモデルにこの推論ステップを踏んでもらったんや。「ほな、質問をもう一度読み直してみ」って。
それ以外の追加の文脈は何も与えへんかってん。ただ「質問を読み直して」って言うただけや。
そしたら、モデルに質問を読み直すように言うただけで、プロンプトの最後にある情報が間違ってると気づいたんや。
ここに書いてあるように、「質問は、Liamが今支払うべき金額を聞いていて、現在の価格が提供されている」って言うてるんや。
そして、「インフレ率に関する情報は、Liamが今支払うべき金額の計算には影響しない。既に現在の価格が分かっているから」って。
これが私が言うてる、モデルに本来備わっている賢さなんや。時には、ちょっとしたプロンプトエンジニアリングで引き出せることがあるんや。
このモデルは本当に賢いと思うわ。OpenAIの01が間違えた質問をこのモデルにも与えてみたんやけど、それは別の質問やった。
これも同じように、関係のない情報が含まれとる質問やったんや。
キウイを摘むことについての単純な質問やったんやけど、一部が平均より小さくても数は変わらへんっちゅう重要な情報があったんや。
これは01 miniや他のモデルが見落としてしまった情報なんやけど、このモデルに質問したら、驚くべきことに、Oliverが合計190個のキウイを持っていて、日曜日のキウイのサイズの変化は記録されているけど、全体の数には影響しないって理解したんや。
これを見ると、このモデルは報酬モデリングの方法のおかげで、普通より少し推論能力が高いってことがはっきり分かるわ。
この報酬モデリングがモデルに教えたもう一つのことがあるんや。
最近、多くの人がLLMをテストするのに使ってる質問があるんや。「strawberryっていう単語の中にRはいくつある?」っていう質問や。
表5を見ると、彼らが使った強化学習の方法だけが正しく答えられとるんが分かるわ。
他の方法や他のモデルは明らかに失敗しとるけど、彼らが使った方法はこの質問に正確に答えられとるんや。
GPT-4は「2つのRがある」って言うてるし、Claude 3.5 Sonnetも「2つのRがある」って言うてる。
405bも「2つのRがある」って言うてるし、llama 3.1も「2つのRがある」って言うてる。
でも、彼らが使った方法は、ちゃんと数えて正しい数を出せたんや。
結局のところ、オープンソースモデルが再びクローズドソースを追い抜いて、能力的に上回ったみたいやな。
でも、これを見ると、もっと推論能力の高い大規模なフロンティアモデルがもうすぐ登場するんやないかって思えてくるわ。
前回、オープンソースがクローズドソースに追いついたとき、クローズドソースの会社が次世代モデルを発表して、パフォーマンスが急激に向上したからな。
ほんじゃ、この動画を楽しんでもらえたなら、llama 3.1 70b instructの使用経験を教えてくれへんか?
みんなの意見も聞かせてほしいわ。

いいなと思ったら応援しよう!