精度99.9%!PIXTAのアノテーションが高品質な3つの理由③
こんにちは、野本です!
この記事はシリーズ第3弾です。よろしければ理由①の記事からご覧ください。
タイトルにもある通り、PIXTAのアノテーションサービスの精度は99.98%。納品完了後に、ほとんど修正が発生することがありません。
なぜこんなに高精度なアノテーションを実現できているのか?
理由は3つあります。
① ストックフォト審査経験を活かしたスキルと技術
② AI開発経験から学んだデータの価値が分かっている
③ 品質を確保するための徹底した工程管理
今回はその理由2つ目、
『③ 品質を確保するための徹底した工程管理』についてお伝えします!
アノテーション委託に関して、
・納品されたデータが思ってたのと違った
・納品後の修正対象が沢山発生してしまった
・修正のために追加費用も時間もかかった
といったご経験をお持ちの方にとって、参考になれば幸いです。
クオリティの鍵を握る徹底した「仕様書」と「検品」
アノテーションの品質を担保するための最重要ポイントは「検品」です。
アノテーションの高い精度を決定する最後の砦がこの「検品」だからです!
などと、言わずもがな、検品の重要性は皆様もご存知のはず。
どのアノテーション業者の方々も充分な検品を行っていることは挙げていらっしゃることです。
当然、PIXTAでも入念な検品を行っています。
でも、検品と同じぐらい重要だと思うのが「仕様書」です。
「検品」が最後の砦だとしたら、作業に入る前の「仕様書」は、その後のクオリティを決定づける最初の入口です。検品も仕様書を元に行うのですから、仕様書がグダグダだと、検品も意味をなしません。
でも、正直な話、仕様書や検品についてどのように比較検討したらいいかは悩まれると思います。
それでも、納得いくまで、どのような仕様書なのか、どのような検品体制なのかは確認してから、業者選定することを強くおすすめします。
できれば、仕様書のサンプルを見せてもらいましょう。
PIXTAでは、ご契約前に仕様書のサンプルをお出しすることが可能です。
PIXTAの仕様書は、基本的にビジュアルベースです。
どのような画像に、どのようなアノテーションがつくのか、一目でわかるようになっているので、言語コミュニケーションによる解釈違いが発生しづらく、お客様と認識の齟齬が発生しにくいのが特徴です。
また、付与対象に遮蔽が有る場合や、イレギュラーなポーズ・画角の場合の対応は、都度、お客様と確認しながら仕様書を作成します。
並行して、仕様書に基づき、実際にアノテーション付与したサンプルデータもご確認いただくので、認識の齟齬はないか、仕様が充分に反映されているかご確認いただいています。
作業前の確認が多くご負担に思われるケースもあるかとは思いますが、すべてのクオリティは仕様書にかかっているといっても過言ではありません。
双方が最初にきちんと正しく認識合わせができれば、8割は終わったようなものです!
なぜなら、以前の記事でもご紹介したとおり、PIXTAでは様々な画像認識AIを自社開発してきた知見を活かし、ストックフォト事業の画像審査業務で高い目視力を持つ優秀なアノテーターが、自社開発した独自ツールを用いて半自動化しながらアノテーション作業をしています。
ある程度はAIモデルを活用して自動的に付与し、手動で付与位置のずれの修正や追加付与を行うことで、手動100%よりもスピーディに、自動100%よりも間違いなくアノテーションが行える体制になっています。
本音を言えば、ここまでの工程だけ充分アノテーション精度には自信があります。それでも「検品」を行います。充分自信があっても、念には念を。最後の確認です。
PIXTAでは、クロスチェックとランダムレビューを取り入れています。
クロスチェックでは、アノテーションを付与したアノテーターとは別のアノテーターが、付与情報が正しいかを確認します。別のアノテーターが確認することで、情報付与が主観的になっていないかを確認し、属人的判断にならないようにしています。
また、案件ごとにつくられるチームの中には、PIXTAの画像審査で目視力と判断力を鍛えられた品質管理担当者を置いています。クロスチェックで修正が必要だと判断されたデータは、修正後に品質管理担当者が最終確認をしています。
さらに、クロスチェックを通過したデータをランダムに抽出し、品質管理担当者が確認するランダムレビューも加えることで、精度99.98%の高品質なアノテーションを提供しているのです。
信頼できるアノテーション業者を選ぶポイント
学習データの目的にもよるので一概には言えませんが、PIXTAが考えるおすすめのアノテーション業者の選び方は以下の3つの要件を満たしていることです。
・自社でAI開発経験があり、AI開発の知見を持っている業者であること
・優秀で卓越したアノテーターが作業していること
・仕様書と検品体制に充分な納得感があること
学習データの質よりも量が重要なフェーズなどでは、一概に言えないこともありますが、少なくともアノテーション精度を重要視した、質の高い学習データを求める際には、上記のチェックポイントを活用していただければと思います。
そしてPIXTAはすべての要件を満たした、高品質アノテーションをお約束いたします!
ぜひ一度お問い合わせください!
==================================
今後、定期的に更新していきますので、
ぜひこちらのアカウントをフォローしていただけると嬉しいです!
この記事への「スキ」もお待ちしています!
PIXTA機械学習用画像・動画データ提供サービス
※資料ダウンロードもすぐに可能です!お気軽にどうぞ。https://pixta.jp/machinelearning-dataset