見出し画像

2024年AIモデル大賞!!! 💥2024年ベストLLM 💥

8,271 文字

それでは2024年のAIモデル授賞式へようこそ。お好みのお茶やコーヒーを用意して、これから12の異なる賞を発表していきましょう。これが授賞するトロフィーです。私には大きな制作ユニットがないので、子供がデザインしたものを使います。これらの企業に12のカテゴリーで賞を授与します。最優秀コーディングモデルから始まり、最も開発者フレンドリーなモデルまで。
各カテゴリーは非常に主観的な意見です。LLMsアリーナやベンチマークに基づくものではありません。私は多くの企業のAI戦略構築に携わってきた経験から得た学びに基づいています。2024年が終わる前に1つの動画を見るとすれば、どのようなAIモデルを使えるかの要約としてこの動画がおすすめです。
最初のカテゴリーは最優秀コーディングモデルです。これは間違いなく最大の関心を集めるカテゴリーの1つです。Cursorのようなコーディング支援アプリケーションや、Lovable、Datab、Button、Boldのようなソリューションを開発する場合、プログラムを書くのを助けてくれる強力な基盤モデルが必要だからです。
個人的な意見として、これは2024年で最も進歩した分野の1つです。モデルは本当に私よりもコンピュータープログラムを書くのが上手くなりました。数日前、JavaScriptのドキュメントをモデル(この場合はGPT)に渡して、Pythonのコードに変換してもらいましたが、1行も間違えることなく完璧に変換してくれて驚きました。
しかし、この賞の受賞者はOpenAIではありません。2024年の最優秀コーディングモデルはAnthropicのClaude 3.5 Sonnetです。Claude 3.5 Sonnetは、コーディングの問題を持ち込めば、ほぼ確実に解決してくれるモデルです。問題が非常にニッチではなく、アセンブリやCを書くのでなければ、Python、JavaScript、HTML、JavaScriptスタックなどの人気のあるプログラミング言語であれば、このモデルを信頼して問題解決に使うべきでしょう。
実際、Cursorのユーザーはそれをよく知っています。Claude 3.5 Sonnetは、Cursorの最も強力なバッカーの1つであり、それがCursorが非常に優れている理由です。
次は今年最大のサプライズです。この賞を決めるとき、マルチモダリティなど多くの異なるモデルがありましたが、個人的に今年最大のサプライズだと決めたのはOpenAI o1です。これは初めてテストタイムスケーリングを搭載して製品化されたモデルでした。他のモデルはこれまでにこれを行っていませんでした。
1年半ほど前に、reflectionというフレームワークについての動画を作りましたが、そのフレームワークではモデルが異なる種類の回答を検討して返すことができました。また、AOの1位か2位か3位の受賞者とポッドキャストもしましたが、彼らもテスト時に多くの候補モデルを生成し、多数決で1つを選ぶモデルを構築しました。
しかし、これを実行できる単一のエンドポイントやモデルはありませんでした。OpenAI o1、特にOpenAIは、この観点を導入したことに対して大きな敬意を払うべきです。Chain of Thoughtは存在していましたが、OpenAI o1は実際にモデルを提供し、LLMsについての人々の考え方を完全に変えました。事前学習だけでなく、テストタイムスケーリングについても考えるようになりました。
そのため、OpenAI o1はこの大きな賞を受けるに値すると思います。Sam Altmanさん、受け取りたい場合は連絡してください。2位を選ぶとすれば、おそらくo3か、OpenAI以外であれば、ベンチマークでOpenAIのモデルを圧倒した最新のDeepSeekモデルでしょう。
DeepSeekを今年最大のサプライズとして選ばなかった唯一の理由は、ここでSam Altmanに同意するからです。モデルの応答を取り、別のモデルを見つけてベンチマークを打ち破るのは簡単ですが、それ自体が本当に優れたモデルである基盤モデルを設計するのは本当に難しいのです。OpenAIは必要な敬意を受けるべきです。中国のDeepSeekは本当に優れたモデルですが、フロンティアモデルがどのように機能すべきかという考え方を変えた今年最大のサプライズとして、OpenAI o1がこの賞に値します。
次は今年最大の失望です。これも非常に個人的な意見で、異なる意見があるかもしれません。個人的に、OpenAIに挑戦するだろうと信じていた会社がありました。フランスの会社で、もうお分かりかもしれません。しかし、なぜかそれを実現できませんでした。今年は多くのモデルをリリースし、異なる方向に進みましたが、まだ存在していることは嬉しいことです。
Stabilityのように没落することはありませんでした。StabilityはまだCEOが解雇されたり、CEOが会社を去ったりといった不必要な騒動はありませんでしたが、この会社は正直なところ、トップに立つと思っていましたが、そうはなりませんでした。
会社名はMistralです。ご存じない方のために言いますが、私は70億パラメータのモデルを愛していましたが、その後、業界のリーダーに挑戦できるような、パラダイムを完全に変えるような素晴らしいものはほとんど見られませんでした。
実際、Stabilityのように、これらのモデルは一度オープンソースの旗手でしたが、研究目的では使用できるが商用目的では使用できないという道を選びました。少し困惑する道でしたが、会社は利益を上げなければならず、ベンチャーキャピタルは利益を期待していることは分かります。会社を運営する苦労は分かります。私は会社ではなくYouTubeチャンネルを運営しているだけですが、個人的に今年最大の失望はフランスの会社Mistralです。
4番目の賞は最大または最優秀の大規模コンテキストモデルです。最大のコンテキストウィンドウ、または最優秀の大規模コンテキストモデルと呼んでもいいでしょう。これは生活の多くの場面で非常に重要なカテゴリーです。
例えば、私の部屋にあるすべてのアイテムをモデルで作成し、それをモデルに記憶させたいとします。インコンテキストメモリだけでなく、持っているものの完全な記憶を持たせたいとします。そうすれば、毎回メモリレイヤーにすべてを保存し、推論時に取り出してモデルに送ることができます。
そのようなことをしたい場合、モデルに本当に長いコンテキストウィンドウ、長いコンテキストを持つ能力が必要です。私の考えでは、この仕事を極めて上手くこなしたモデルに匹敵するものはありません。モデルの扱いの難しさはありますが、長いコンテキストのためだけに1つのモデルを使うとすれば、それは間違いなくGemini 1.5 ProとGemini 1.5 Flashです。
最大のコンテキストが必要な場合、LLMsのメモリレイヤーを構築したい場合、AIヒストリアンを構築したい場合、AIチューターを構築したい場合、ユーザーのプロファイルを持ち、推論時にこれらすべてを送信したい場合、間違いなくGemini 1.5 Proを盲目的に使用できます。
次は最小サイズです。私の意見では、最優秀小型モデルはQwen 3億パラメータ、または3億パラメータ以下のモデルです。QwenはAlibabaの製品だと思います。基本的に中国のモデルです。MILEのように完全にマルチリンガルではありませんが、必要なものをすべて提供する良い仕事をしています。数学モデル、コーディングモデルなど、異なるドメイン固有のモデルを持っています。
Qwenは間違いなく、ローカルコンピュータで行いたい特定のタスクに3億パラメータ以下のモデルを選ぶなら本当に優れています。
次は最も過小評価されているモデルです。私の意見では、多くの異なるモデルを考えるかもしれません。私のようなYouTuberの多くがそれらのモデルについて話します。例えば、私たちはOpenAI、Anthropic、Googleのような企業の非公式PRユニットのようなものです。
しかし、常に少数の人々しか話さないと感じている特定のモデルが1つあります。様々な理由があり、オープンソースエコシステムに貢献し、主にオープンウェイトをリリースし、論文を発表するなど非常に透明性があります。
私の意見では最も過小評価されているモデルは、Qwenファミリーのモデルです。中国から受け取ることができます。Qwenは時々トップを打つモデルですが、ほとんど話題に上がりません。彼らは本当に良い仕事をしています。
少なくとも私の意見では、OpenAI APIコールを置き換えようとはしていませんが、ルーターがあり、モデルの1つが必要な場合、Qwenは本当に優れています。コーディングモデルは優れており、小型モデルを使用したい場合も優れています。大型モデルもあり、ビジョンモデルも優れています。全体的に見て、非常に過小評価されているパッケージで、多くの人々が話題にしないのがQwenファミリーのモデルです。
次は最速モデルです。無限の速さだけを気にする場合、Groやセレブラシステムズ、その他のサービスプロバイダーの高速化されたエンドポイントについて話しているのではありません。一般的に、最速の応答が欲しい場合、2つのアプローチがあります。
1つは、先ほど言ったように小型モデルのルートを取り、Qwenを使用する方法です。小型モデルの特別賞としてMicrosoftのPhiもあります。Phiを使用している人がどれくらいいるか分かりませんが、コメント欄で教えてください。個人的にPhiを使用している人をあまり知りませんが、この時点でPhiは独自のエコシステムに成長していると思います。
しかし、小型モデルのルートを取りたくない場合、本当に優れたモデルを使いたいが速さも重要な場合、目を閉じて言えるのは、Gemini 2.0 Flashを選ぶべきということです。速度が主な関心事で、品質と精度を損なわないようにしたい場合です。
Googleはこれを見事に成功させました。Gemini 2.0 Flashは本当に素晴らしいです。レート制限がどの程度厳しいのか正確には分かりませんし、Vertexで使用するためにサインアップもしていないので、GCPを通じて使用する苦労は理解できます。しかし、GoogleのAI StudioやAI Studio's APIキーから使用している場合、これは非常に長いコンテキストウィンドウを持ち、また非常に高速なモデルの1つです。
次は最優秀マルチモーダルモデルです。画像処理、テキスト処理、そしてネイティブにビデオも処理できるモデルを選ぶとすれば、これらすべてができるモデルは世界でも非常に少ないです。
再び同じ例を挙げると、私の部屋に監視カメラの映像があるとします。現時点では持っていませんし、なぜ寝室に監視カメラを置く必要があるのかという疑問はありますが、議論のために例を挙げます。妻に確認する必要がありますが、仮に40分の監視カメラ映像があり、それをモデルに送って洞察を求めたいとします。
本棚があり、すべての本を読みたい場合や、冷蔵庫や台所に食材があり、何が作れるか知りたい場合、この場合に素晴らしい仕事ができるモデルは1つしかないと思います。再びGemini 1.5 Proです。
このモデルはマルチメディア処理を素晴らしく成功させています。画像、音声、ビデオについて、1つお話しします。自動音声認識(ASR)についてご存知でしょうか。これは音声を入力として与え、様々な処理を行うプロセスです。音声認識や音声からテキストへの変換で重要なことの1つは、話者ダイアライゼーションです。
ポッドキャストにとって非常に重要です。伝統的な機械学習のバックグラウンドがある人は、教師なし学習技術であるk-meansクラスタリングについて知っています。実際、話者が2人だけだと分かっている場合、k=2としてk-meansクラスタを構築し、話者ダイアライゼーションを行うことができます。様々な方法がありますが、ネイティブに音声を処理し、話者ダイアライゼーションを行えるLLM(大規模言語モデル)を選ぶとすれば、Gemini 1.5 Proが唯一のモデルだと思います。
GPT-4 oでは音声処理のテストはしていませんが、コメンタリーは行いました。音声処理、ビデオ処理、画像処理ができ、テキストを生成できる最高のモデルの1つです。マルチモーダル生成、最優秀マルチモーダルモデルです。Googleのサンダーさん、タミル・ナードゥに来たい場合は、受け取りに来てください。申し訳ありませんが、私から届けることはできません。
次は最優秀エージェントモデルです。エージェントタスクに本当に優れた、トップクラスのモデルが1つあります。リサーチエージェントを構築したい場合、マルチエージェントシステムを構築したい場合、Pantic AI、Crew AI、Py Autogen AIを使用したい場合、フレームワークに飽きて独自のコードを書いてエージェントに使用したい場合。
優れたエージェントモデルを推測するのは難しくありません。優れたエージェントモデルには2つの良い特性が必要です。1つは優れた推論能力、もう1つは優れたコーディング能力です。推論とコーディングに優れたモデルは何かと考えると、それはClaude 3.5 Sonnet以外にありません。
Claude 3.5 Sonnetは、現時点で世界で利用可能な最高のエージェントモデルです。エージェントを構築する場合、これが最高のモデルです。
この動画もほぼ終わりに近づいてきました。残りは3つの賞だけです。まず、私の意見での最も価値のあるモデルです。モデルを選ぶとすれば...ご存知の通り、この構造全体は誰かから借りてきました。MKBHDやMrWhosTheBossのような方々です。何年も追いかけてきたテックYouTuberです。彼らはスマートフォンのレビューやスマートフォンの年末賞を行っています。私はそれを熱心に見てきました。
12月31日にこの動画を見る人がいるかどうか分かりませんし、家にいて見る人がどれくらいいるか分かりませんが、スマートフォンの世界で彼らがやっていることを真似てこの動画を作りたいと思いました。
それに基づいて、彼らはMVPスマートフォンを選びます。すべてにおいて本当に優れた1台のスマートフォンです。1つのことだけでなく、すべてにおいて平均的に優れており、全体として最高のモデルです。
同じ概念で、最も価値のあるモデルを1つ選ぶとすれば、誰かが私のところに来て「Abdul」と言う場合(実生活で私を「One Little Coder」と呼ぶ人はいませんが)、「このモデルをコーディングに使いたいのですが、提案してくれますか」、あるいは「推論にも使いたいのですが、提案してくれますか」、「画像処理もできるモデルがあればいいのですが、提案してくれますか」、「計画タスクの一部にも使いたい」、「より難しい問題を解決するためにこのモデルを使いたい」と言った場合、どのモデルを提案するでしょうか。コメント欄で教えてください。
しかし、誰かがそう質問した場合、目を閉じて盲目的に言えるのは、選ぶべき唯一のモデルはClaude 3.5 Sonnetだということです。もちろんClaude 3.5 Opusではありません。なぜならClaude 3.5 Opusは存在しないからです。多くの人々はこれをClaude 3.6 Sonnetと呼びます。
Claude 3.5 Sonnet、Claude 3.6 Sonnet、何と呼びたくても、Anthropicはとにかくとてもいいモデルを作りました。OpenAIの安全性について意図的に離れたことなど、それを置いておけば、彼らは本当に素晴らしいモデルを構築しました。Anthropicの誰かがこの賞を受け取りたい場合は、連絡してください。
最も価値のあるモデルはClaude 3.5 Sonnetだと言えます。競合モデルでもClaude 3.5 Sonnetが達成したことを打ち破ろうとしています。事前学習で何か本当に素晴らしいことをしたのは間違いありません。これも非常に驚くべきことですが、Claude 3.5 SonnetはLLMsのリーダーボードでトップではありません。何が起きているのか分かりませんが、One Little Coderが提示する賞や雰囲気チェックでは、Claude 3.5 Sonnetが最高のモデルだと言うべきです。
残り2つのカテゴリーがあります。最も開発者フレンドリーなモデルです。最も価値のあるモデルを知った今、「Abdul、SaaSを構築したいのですが」と言われても、Claude 3.5 Sonnetは推奨しません。ひどいインフラを持っています。Anthropic Proに支払った経験のある人なら、半分の時間はこのモデルを使用できないことをご存知でしょう。
この世界でインフラを理解している会社が1つあるとすれば、それは間違いなくGoogleですが、このことについてはGoogleを推奨しません。彼らの最も開発者フレンドリーなモデルではないと思います。Vertexプラットフォームは依然として使用が困難です。AI Studioで使用できますが、多くの混乱や実験的なモデルがあります。
1つのLLMエンドポイントを使用してSaaS(Software as a Service)を構築したい場合、複数のLLMエンドポイントではなく、1つのエンドポイント、1つのモデルを使用して、堅牢で、スケーリング可能で、ダウンタイムが少なく、これらのことを全て上手くこなすモデルが必要です。Claude 3.5 Sonnetのように良いものですが、Anthropicからではありません。それは間違いなくGPT-4です。
これは依然として優れたモデル、本当に優れたモデルですが、Claude 3.5 Sonnetほどクリックしません。しかし、開発者で、SaaS、製品、アプリケーション、Androidアプリケーション、iOSアプリケーションを構築するためのモデルが必要な場合は、OpenAI GPT-4を使用すべきです。最も開発者フレンドリーなモデル、または製品やビジネスを構築するための最も完璧なモデルです。
最後のセクションは、今年最大の失敗モデルです。発表、発売、立ち上げ、何と呼びたくても、PRの観点から、品質の観点から最大の失敗があったモデルが1つあるとすれば、覚えている人がどれくらいいるか分かりませんが、それはReflection 70億パラメータモデルです。
ここで論争に深く入りたくありません。Reflectionの背後にある基本原理は素晴らしかったと思います。ReflectionはOpenAI o1の前に登場しましたが、約束したことを反映できませんでした。Reflectionはおそらく最大の失敗の1つで、オープンモデルが登場するたびに人々はより懐疑的になり始めました。
今年最大の失敗として、Reflectionにこの賞を贈ります。どうかこの賞は受け取らないでください。それ以外では、AIモデルにとって素晴らしい年だったと思います。中国のMinx、Haloo AI、Kling 1.5など最高のビデオ生成モデルがあります。Googleはビデオ生成のための実験的またはベータモデルのV2を持っています。ChatGPT Plusのサブスクリプションでソーラもあります。
AIモデルにとって本当に素晴らしい年でした。この動画を見ている方々に、私が見逃したモデルは何か、2025年に期待していることは何か、コメント欄で教えていただければ幸いです。私の動画を見ていただき、とても感謝しています。また別の動画でお会いしましょう。ハッピープロンプティング!

いいなと思ったら応援しよう!