![見出し画像](https://assets.st-note.com/production/uploads/images/153679071/rectangle_large_type_2_33c5ac058a18295410cd77abb4a91b51.png?width=1200)
ミックスナッツで物体検知 ー 写真が何枚あったらAIがつくれる?
こんにちは、ヒューマノーム研究所のしゅんです。
今日は、初心者の方が気になるであろう「AIを作るときにどれくらいのデータの数が必要なの?」というテーマについてお話させていただきます。
AIモデルを開発する際によく受けるお問い合わせの一つとして「どれくらいのデータがいるの?」というものがあります。先に結論をいうと、「扱う題材や課題によって異なる」が答えとなります。しかし、特にはじめてAIモデルをつくるときなど、まずはどれくらいのデータ数を準備すればいいのか?という目安が欲しいと思います。
そこで今回はAI開発によく用いられるデータの一例として「写真(画像データ)」をを使って、実験を行います。当社が開発するAI開発ツール Humanome Eyes(以下「Eyes」)を使って物体検知AIモデルを開発し、画像枚数やアノテーション数のパターンをいくつか用意して、AIモデルの比較をしてみます。
どれぐらいの画像数が必要なのか、少しでも参考になれば幸いです。
題材と画像
今回は、図1の左側に示す4種のナッツを識別・検知するAIモデルを開発しようと思います。ヘーゼルナッツ、アーモンド、くるみ、カシューナッツを皿に並べ、写真を撮り、このような画像を100枚程度用意しました(図1右)。
これらの写真を、後述するAIモデル開発時に行うアノテーションやオブジェクト検出テストに用いました。
![](https://assets.st-note.com/img/1725938108-oQOhXdDZvTC03KLjzmxHrtA8.png?width=1200)
(左)4種のナッツの代表例。カッコ内のアルファベットはアノテーションの際のラベルとして使用した。(右)AIモデル開発に使用する画像例。4種のナッツを同一の皿の上にランダムに配置した画像を100枚程度用意した。
アノテーションやオブジェクト検出テストに関する詳しい説明については、以下の記事をごらんください。
アノテーション
素材となる図1の右側のような写真が準備できたので、次はこれらの写真に対し、「画像の中において、何がどこに存在するか?」を入力する作業であるアノテーションを実施します。
画像の枚数やアノテーション数によって、開発されたAIモデルの精度がどのように変化するのかを検証するため、それぞれ10・20・30・40・50枚の写真をセットにして読み込んだ画像セット(タスク)を作成しました。各セットとも、4種のナッツに対してアノテーションを行います(図2)。
![](https://assets.st-note.com/img/1725941586-xhlT5R8UnIB1vrKtMo2jP7Xs.png?width=1200)
Eyes のアノテーション画面。図1で提示した4種のナッツそれぞれについてアノテーション(画像内で各ナッツに対して囲われている四角い枠)を行った。
画像の枚数およびアノテーション数の結果は表1のようになりました。
今回は市販のミックスナッツを使ったのですが、アーモンドとくるみの割合が比較的多かったようです。画像10枚ごとに、200‐250個のアノテーション数が加算されていくことがわかりました。
次項では、画像枚数の異なる5つの画像セットそれぞれについて、AIの学習とAIモデルの開発を行います。
![](https://assets.st-note.com/img/1725942007-4ClWbGIS6myBDpxfThXuMPV8.png?width=1200)
学習・AIモデル開発
ナッツのアノテーションが終わったので、次は4種のナッツを識別・検知するAIモデルを開発しようと思います。本来は作成するAIモデルごとに、最適な学習回数や学習率を設定する必要がありますが、今回は比較のために学習回数を1000回、学習率を0.001ですべて統一し、学習を実行しました。
開発した各モデルについて、精度を示す指標を比較したものが表2になります。本表から、画像枚数が10枚でもPrecisionやRecallの値が比較的高い精度のモデルを作成できることがわかりました。
![](https://assets.st-note.com/img/1725943482-AnFDg1eVsq3u0Yz82d579bCG.png?width=1200)
PrecisionやRecall の詳しい説明については、下記の記事をごらんください。
オブジェクト検出テスト
最後に、実際につくったAIモデルが、きちんと機能するかを確認します。
今回作成したモデルに、学習では使わなかった新しい画像を読み込み、各ナッツのオブジェクト検出テスト(予測)を行いました。その結果、どのモデルでも、きちんと各種ナッツを検出できていることがわかりました(図3)。
![](https://assets.st-note.com/img/1725943764-9SOvDQMalhJWnezfPk1ru2Gi.png?width=1200)
各図の数字は、学習時に使用した画像の枚数を示す。また、各ラベルのアルファベットはそれぞれ、A=アーモンド、C=カシューナッツ、H=ヘーゼルナッツ、W=くるみ を示す。
まとめ
今回は、4種のナッツ写真を題材に、どのくらい画像枚数やアノテーションが必要かを検証してみました。結果、4種のナッツに対し、10枚・240程度のアノテーションでも、物体検知できるAIを作成できることがわかりました。
今回は一枚で多くのアノテーション(一枚で20個以上)ができたので、画像枚数はあまり必要なかったと考えられます。当初はカシューナッツとヘーゼルナッツは特に見分けが難しく、もっと枚数やアノテーションが必要じゃないかと思っていましたが、Eyesってすごい!
対象によって検知しやすい・しにくいはありますが、物体検知のAIモデルを作るときは、まずはこれぐらいの数を目標に、画像を集めるところからスタートしてもよさそうです。
関連記事
表データを利用したAI学習テキスト(Humanome CatData)
画像・動画を利用したAI学習テキスト(Humanome Eyes)
AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい!