見出し画像

新VLMモデル: PIXTRAL 124B 24.11 - Sonnetより優れているか?

3,852 文字

コミュニティの皆さん、こんにちは。今日は2つの新しいAIモデルについてお話しします。信じられないかもしれませんが、これらはフランスのヨーロッパ製です。新しいpix largeの登場です。これはパリ発の124億の再学習可能なパラメータを持つオープンウェイトのマルチモーダルAI、ビジョン言語モデルです。素晴らしいと思いませんか?
特に注目すべきテストがあります。mathematic Vistaと呼ばれる、視覚データを用いた複雑な数学的推論を評価するテストです。このモデルは、この地球上の他のすべてのモデルを上回る性能を示しています。
また、お伝えした通り、Mr Largeのアップデートもあります。最大トークン数は128kで、バージョンは2024年11月を示す24.11です。さらに新しいマルチモーダルモデルがあり、これはpix2 largeと呼ばれ、同じくバージョン24.11です。
テキスト生成、ビジョン、コード生成、埋め込み、関数呼び出し、ファインチューニング、JSONモード、ガードレールのためのAPIがあり、素晴らしい開発者向けの例も用意されています。インターネット検索用RAG、医療分野用RAG、金融アドバイザー、法務コパイロットなどを構築したい場合、これらのモデルはすべてドキュメントとプラットフォームで利用可能で、実装できます。
Legitで探索できますが、まず最新のモデルでエージェントを構築したいと思います。確認したところ、利用可能になっています。プラットフォームのagentsに行くと、数回クリックするだけでエージェントを作成・デプロイできます。ここに新しいpix2 Largeモデルがあります。123億の再学習可能なパラメータを持っています。1億減りましたが、問題ありません。
ヨーロッパ製で、ランダム性、指示、システムプロンプト、ICL(文脈内学習)の例があります。デプロイをクリックするだけでエージェントが作成され、プラットフォーム全体で利用可能になります。
ユースケースもあり、フランス語エージェント、Pythonエージェント、Pythonエージェントワークフロー、データ分析マルチエージェントワークフロー、ロールプレイング会話エージェントがあります。クリックするだけで利用可能です。
今日はEUのモデルを紹介していますが、「llama 3.29億パラメータより優れているのか?」と聞かれるかもしれません。こちらを見てください。小さなllamaとパリ発のヨーロッパチャンピオンを比較しています。
また「Claude 3.5 Sonnet version 2と同じくらい優れているのか?」という質問もあるでしょう。あるテストでは実際に優れていることが分かりました。Claude 3.5 Sonnetの方が若干優れている部分もありますが、フランスのモデルの方が優れている部分もあります。少なくともClaude 3.5 Sonnet version 2と同等の性能があると言えます。これはデータに裏付けられた感情的な評価です。
アドベントカレンダーの時期になり、128kのコンテキストウィンドウがあり、最低でも30枚の高解像度画像に対応しています。もちろん画像生成も可能で、このビデオで見ているすべての画像は、この新しいフランスのモデルによって生成されています。
さらに詳しく知りたい方は、mol pixol largeの公式リンクがあります。pixolがついに成長しました。素晴らしいと思いませんか?
ベンチマークデータはこちらです。pix2 large 125Bと、Llama 3.2 90B、Gemini 1.5 Pro、GPT-4、Claude 3.5 Sonnetを比較しています。これはversion 2であることに注意してください。
テキストモデルも忘れないでください。Mr Large 24.11と呼ばれる素晴らしい大規模言語モデルがあります。これは最新バージョンへの大幅なアップグレードで、長文脈理解の改善、新しいシステムプロンプト、より正確な関数呼び出しが特徴です。
これは企業のRAGエージェンティックワークフローにも高い能力を発揮します。ナレッジ探索、文書の意味理解、タスク自動化などのユースケースに対応します。
文書の意味理解について、すぐにテストしてみましょう。2時間前から利用可能になっています。チャットプラットフォームに行き、このプロンプトを入力してPDFファイルをアップロードします。
プロンプトは「提供されたPDF文書を分析してください。目的と目標を明確にし、研究の主な目的を定義し、この研究が取り組むAIの特定の問題について議論し、導入された新しい方法論を要約し、最も重要な事実とデータを強調し、これらの方法が既存のアプローチとどのように異なり改善されているかを説明し、著者が導き出した主な洞察と結論を特定し、これらの洞察の関連性と重要性について議論し、これらの新しい方法と発見が現在のAI技術にどのように統合されるかを分析し、この研究がAI分野をどのように進展させるかを説明し、この研究からの潜在的な影響と応用を探り、将来の研究の方向性と実践的な応用を検討し、このAI分野への研究の重要性と潜在的な影響について簡潔な科学的要約を提供してください」というものです。
124億の再学習可能なパラメータを持つこの美しい新しいモデルは、グラフアシスタントのクエリと推論システムに関するPDFの包括的な分析を返してきました。主な目的、取り組んでいる問題、導入された新しい方法、主要な方法論、主な発見が1ページ目にあり、2ページ目には改善された精度、説明可能な洞察、ハイブリッドRAGシステムの重要な洞察が続きます。
3ページ目ではAI分野への統合、広範な影響、潜在的な影響について説明し、4ページ目では将来の研究の方向性と簡潔な科学的要約が短い形で提供されています。このエージェントによる4ページの回答は、本当に素晴らしい性能を示しています。
「このトピックについてインターネットで追加情報を見つけることはできますか?」と尋ねることもできます。グラフ8、GraphQL、Microsoft Graph、新しいグラフ推論について、オリジナルのドキュメントへのリンクがすべてインターネット上にあります。これは、ウェブ検索のベータ機能を有効にしているため可能です。
画像生成については、このビデオのすべての画像がこの新しいモデルで生成されています。また、コーディングなどで使用できるキャンバス機能も利用可能です。
もちろん、これらのモデルはすべてHugging Faceで利用できます。mist-aiiに行くと、2分前に更新されたばかりです。pixol large instruct 24.11と、テキストモデルのmr large instruct 24.11が1時間前に更新されており、新しいビジョン言語モデルは2分前に追加されたばかりです。
必要な情報はすべてここにあります。2分前から利用可能なものをダウンロードできます。ビジョン言語モデルのpixel large 24bには素晴らしい特徴があります。インストールは「pip install」で、クライアントをpingするだけです。
完全なコードがあり、Hugging Face APIをリクエストし、モデルでシステムプロンプトを読み込み、画像URL、メッセージ、テキストを設定すると、システムから応答が返ってきます。
さらに、このビジョン言語クライアントをテキストのみの例でpingすることもできます。これは、モデルが常に現在の日付を知っているようにするためにシステムプロンプトを使用する方法を示す例です。Pythonコードがあり、ユーザーとしての簡単な役割と質問があり、モデルからの応答では日付と経過時間を正確に把握しています。
オフラインの例、WM、すべてのコードが利用可能です。まずは研究ライセンスから始めて、会社で本当に役立つと感じたら、商用ライセンスについてMr AIの担当者に連絡することができます。
前回のビデオでAIの統合について話し、MetaがLlamaモデルを米国政府のすべてのサービス(民間・非民間)で利用可能にしたことを紹介しましたが、今日は素晴らしいニュースがあります。
アメリカにはMetaのllama 3.2があり、これが新しい標準になるとMetaが宣言しています。中国には素晴らしい高性能なQ 2.5ファミリーがあり、テキスト、ビジョン、コーディングなど、すべてに対応する本当に優れたパフォーマンスを持っています。
そして今夜から、ヨーロッパにも素晴らしい新しいLLM、ビジョン言語モデルのmix 12 large version 2が加わります。ご覧の通り、LLMとビジョン言語モデルに関して、米国、ヨーロッパ、中国でバランスが取れ始めています。
これは、新しいヨーロッパのAIモデル、言語モデル、ビジョンモデルを見た最初の印象です。情報提供になれば幸いです。試してみてください。価格はオンラインで確認できます。私は研究ライセンスを使用していましたが、商用目的の場合は商用ライセンスを取得することができます。
今日はここまでです。楽しんでいただけたなら幸いです。チャンネル登録していただければ、次回の動画でお会いできます。

いいなと思ったら応援しよう!