
Phi-3-vision ・ Phi-3-medium ・ Phi-3-small の概要
以下の記事が面白かったので、簡単にまとめました。
・New models added to the Phi-3 family, available on Microsoft Azure
1. Phi-3
「Phi-3」は、最も有能で費用対効果のSML (Small Language Model) であり、さまざまな言語、推論、コーディング、数学のベンチマークで同じサイズと次のサイズのモデルを上回っています。Tiny but mighty: The Phi-3 Small Language Modelsで説明されているように、「Phi-3」は高品質の学習データで学習されています。
2. Phi-3 のモデル一覧
「Phi-3」は、4種類のモデルが提供されています。
・Phi-3-vision : 言語と視覚機能を備えた4.2Bのマルチモーダルモデル
・Phi-3-medium : 14Bの言語モデルで、2つのコンテキスト長(128Kと4K)で利用可能
・Phi-3-small : 7Bの言語モデルで、2つのコンテキスト長(128Kと8K)で利用可能
・Phi-3-mini : 3.8Bの言語モデルで、2つのコンテキスト長(128Kと4K)を利用可能
3. マルチモーダル
「Phi-3-vision」は、「Phi-3」の最初のマルチモーダルモデルです。チャートやダイアグラムの理解に最適化されており、洞察を生み出し、質問に答えるために使用できます。「Phi-3-vision」は「Phi-3-mini」をベースに構築され、強力な言語と画像推論品質を小さなモデルに詰め込んでいます。
「Phi-3-vision」は、チャートや図から洞察を生み出すことができます。

4. 性能
「Phi-3-small」「Phi-3-medium」は、同じサイズの言語モデルだけでなく、はるかに大きい言語モデルよりも優れたパフォーマンスを発揮します。

・Phi-3-small (7B) は、さまざまな言語、推論、コーディング、数学のベンチマークにわたって GPT-3.5T を上回っています。
・Phi-3-medium (14B) は、Gemini 1.0 Pro.2 を上回ります。
・Phi-3-vision (4.2B) は、一般的な視覚的推論タスク、OCR、表、チャートの理解タスクにわたって、Claude-3 Haiku や Gemini 1.0 Pro などのより大きなモデルを上回っています。
報告されるすべての数値は、数値が比較可能であることを保証するために同じパイプラインを使用して生成しています。そのため、評価方法の若干の違いにより、これらの数値が他の公表数値と異なる場合があります。ベンチマークの詳細については、テクニカルペーパーで説明しています。
・Phi-3-small (7B) のベンチマーク結果

・Phi-3-medium (14B) のベンチマーク結果

・Phi-3-vision (4.2B) のベンチマーク結果

5. 安全の優先順位
「Phi-3」は、Microsoft Responsible AI標準に従って開発され、厳格な安全性測定と評価、レッドチーミング、敏感な使用レビュー、セキュリティガイダンスの遵守を経て、これらのモデルがマイクロソフトの標準とベストプラクティスに沿って責任を持って開発、テスト、展開されることを確認しました。
「Phi-3」も高品質なデータを使用して学習されており、「RLHF」、数十の害カテゴリにわたる自動テストと評価、手動レッドチーミングなど、学習後の安全性でさらに改善しました。安全学習と評価へのアプローチは、テクニカルペーパーに詳述されており、モデルカードの推奨される用途と制限を概説しています。
6. 適切なモデルの選択
SLMは、より単純なタスクでうまく機能するように設計されており、リソースが限られている組織にとってよりアクセスしやすく、使いやすく、特定のニーズに合わせてより簡単にファインチューニングできます。これらは、タスクが広範な推論を必要とせず、迅速な対応が必要な、デバイス上でローカルで実行する必要があるアプリケーションに適しています。
「Phi-3-mini」「Phi-3-small」「Phi-3-medium」を使用するかの選択は、タスクの複雑さと利用可能な計算リソースによって異なります。コンテンツのオーサリング、要約、質問回答、感情分析など、さまざまな言語理解や生成タスクで使用できます。従来の言語タスクを超えて、これらのモデルは強力な推論と論理能力を備えており、分析タスクの優れた候補となっています。すべてのモデルで利用可能なより長いコンテキストウィンドウにより、ドキュメント、Webページ、コードなど、大きなテキストコンテンツの取り込みと推論が可能になります。
「Phi-3-vision」は、画像とテキストを一緒に推論する必要があるタスクに最適です。抽出されたテキストの推論やQ&A、チャート、図、テーブルの理解タスクなど、OCRタスクに特に適しています。