見出し画像

ミックスナッツで物体検知 ー 写真が何枚あったらAIがつくれる?

こんにちは、ヒューマノーム研究所のしゅんです。
今日は、初心者の方が気になるであろう「AIを作るときにどれくらいのデータの数が必要なの?」というテーマについてお話させていただきます。

AIモデルを開発する際によく受けるお問い合わせの一つとして「どれくらいのデータがいるの?」というものがあります。先に結論をいうと、「扱う題材や課題によって異なる」が答えとなります。しかし、特にはじめてAIモデルをつくるときなど、まずはどれくらいのデータ数を準備すればいいのか?という目安が欲しいと思います。

そこで今回はAI開発によく用いられるデータの一例として「写真(画像データ)」をを使って、実験を行います。当社が開発するAI開発ツール Humanome Eyes(以下「Eyes」)を使って物体検知AIモデルを開発し、画像枚数やアノテーション数のパターンをいくつか用意して、AIモデルの比較をしてみます。

どれぐらいの画像数が必要なのか、少しでも参考になれば幸いです。


題材と画像

今回は、図1の左側に示す4種のナッツを識別・検知するAIモデルを開発しようと思います。ヘーゼルナッツ、アーモンド、くるみ、カシューナッツを皿に並べ、写真を撮り、このような画像を100枚程度用意しました(図1右)。

これらの写真を、後述するAIモデル開発時に行うアノテーションやオブジェクト検出テストに用いました。

図1. 4種のナッツの紹介とAIモデル開発用の画像
(左)4種のナッツの代表例。カッコ内のアルファベットはアノテーションの際のラベルとして使用した。(右)AIモデル開発に使用する画像例。4種のナッツを同一の皿の上にランダムに配置した画像を100枚程度用意した。

アノテーションやオブジェクト検出テストに関する詳しい説明については、以下の記事をごらんください。

アノテーション

素材となる図1の右側のような写真が準備できたので、次はこれらの写真に対し、「画像の中において、何がどこに存在するか?」を入力する作業であるアノテーションを実施します。

画像の枚数やアノテーション数によって、開発されたAIモデルの精度がどのように変化するのかを検証するため、それぞれ10・20・30・40・50枚の写真をセットにして読み込んだ画像セット(タスク)を作成しました。各セットとも、4種のナッツに対してアノテーションを行います(図2)。

図2. 4種ナッツのアノテーション例
Eyes のアノテーション画面。図1で提示した4種のナッツそれぞれについてアノテーション(画像内で各ナッツに対して囲われている四角い枠)を行った。

画像の枚数およびアノテーション数の結果は表1のようになりました。

今回は市販のミックスナッツを使ったのですが、アーモンドとくるみの割合が比較的多かったようです。画像10枚ごとに、200‐250個のアノテーション数が加算されていくことがわかりました。

次項では、画像枚数の異なる5つの画像セットそれぞれについて、AIの学習とAIモデルの開発を行います。

表1. 各画像枚数におけるアノテーション数

学習・AIモデル開発

ナッツのアノテーションが終わったので、次は4種のナッツを識別・検知するAIモデルを開発しようと思います。本来は作成するAIモデルごとに、最適な学習回数や学習率を設定する必要がありますが、今回は比較のために学習回数を1000回、学習率を0.001ですべて統一し、学習を実行しました。

開発した各モデルについて、精度を示す指標を比較したものが表2になります。本表から、画像枚数が10枚でもPrecisionやRecallの値が比較的高い精度のモデルを作成できることがわかりました。

表2. 各画像枚数で作成したAIモデルの比較

PrecisionやRecall の詳しい説明については、下記の記事をごらんください。

オブジェクト検出テスト

最後に、実際につくったAIモデルが、きちんと機能するかを確認します。
今回作成したモデルに、学習では使わなかった新しい画像を読み込み、各ナッツのオブジェクト検出テスト(予測)を行いました。その結果、どのモデルでも、きちんと各種ナッツを検出できていることがわかりました(図3)。

図3. 各モデルのオブジェクト検出テスト
各図の数字は、学習時に使用した画像の枚数を示す。また、各ラベルのアルファベットはそれぞれ、A=アーモンド、C=カシューナッツ、H=ヘーゼルナッツ、W=くるみ を示す。

まとめ

今回は、4種のナッツ写真を題材に、どのくらい画像枚数やアノテーションが必要かを検証してみました。結果、4種のナッツに対し、10枚・240程度のアノテーションでも、物体検知できるAIを作成できることがわかりました。

今回は一枚で多くのアノテーション(一枚で20個以上)ができたので、画像枚数はあまり必要なかったと考えられます。当初はカシューナッツとヘーゼルナッツは特に見分けが難しく、もっと枚数やアノテーションが必要じゃないかと思っていましたが、Eyesってすごい! 

対象によって検知しやすい・しにくいはありますが、物体検知のAIモデルを作るときは、まずはこれぐらいの数を目標に、画像を集めるところからスタートしてもよさそうです。

関連記事

表データを利用したAI学習テキスト(Humanome CatData

画像・動画を利用したAI学習テキスト(Humanome Eyes


AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい!


いいなと思ったら応援しよう!

この記事が参加している募集