見出し画像

omni-moderation-latest の概要

以下の記事が面白かったので、簡単にまとめました。

Upgrading the Moderation API with our new multimodal moderation model


1. omni-moderation-latest

omni-moderation-latest」は、「GPT-4o」をベースにした新しいもモデレーションモデルです。テキストと画像の両方の入力をサポートし、特に英語以外の言語では以前のモデルよりも正確です。以前のバージョンと同様に、憎悪、暴力、自傷行為などのカテゴリ全体でコンテンツにフラグを立てる必要があるかどうかを評価するとともに、新たな危害カテゴリを検出する機能も追加しています。さらに、検出されたカテゴリに一致するコンテンツの可能性を反映するように確率スコアを調整することにより、モデレーションの決定をより細かく制御できます。新しいモデレーションモデルは、「Moderation API」を通じてすべての開発者が無料で使用できます。

2. 改善点

omni-moderation-latest」の改善点は、次のとおりです。

・6カテゴリにわたるマルチモーダルな危害分類
画像またはテキストと組み合わせて、有害なコンテンツを含む可能性を評価できます。これは現在、暴力 (violenceviolence/graphic)、自傷行為 ( self-harmself-harm/intentself-harm/instruction)、性的 (sexual (sexual/minorsは除く)) のカテゴリでサポートされています。残りのカテゴリは現在テキストのみで、今後はマルチモーダルサポートをさらに多くのカテゴリに拡張するよう取り組んでいます。

・2つの新しいテキストのみの危害カテゴリ
以前のモデルと比較して、新たに2カテゴリで危害を検出できます。 1つは「万引きのやり方」のようなフレーズなど、不正行為の実行方法に関する指示やアドバイスをカバーする「違法」(illicit)、もう 1 つは暴力も含む不正行為をカバーする「違法/暴力」(illicit/violent)です。

・特に英語以外のコンテンツでより正確なスコア
40言語のテストでは、以前のモデルと比較して、この新しいモデルは社内のマルチモーダル評価で42%向上し、テストされた言語の98%で向上しました。クメール語やスワティ語などのリソースの少ない言語では70%向上し、テルグ語 (6.4 倍)、ベンガル語 (5.6 倍)、マラーティー語 (4.6 倍) で最大の向上が見られました。以前のモデルでは英語以外の言語のサポートが限られていましたが、スペイン語、ドイツ語、イタリア語、ポーランド語、ベトナム語、ポルトガル語、フランス語、中国語、インドネシア語、英語での新しいモデルのパフォーマンスは、以前のモデルの英語のパフォーマンスをも上回ります。

・調整されたスコア
新しいモデルのスコアは、コンテンツが関連ポリシーに違反する可能性をより正確に表すようになり、将来のモデレーション モデル全体で大幅に一貫性が高まります。



いいなと思ったら応援しよう!