Dictation 採点アプリ開発メモ vol.08

2020年10月17日 11:12

キカガクさんの講義の一環で作る自作アプリに関するメモです。

2020.10.10(土) 午後に試したことをまとめる。

テスト用画像（背景グリッド、白色）の画像サイズ、文字サイズを統一させて比較する: AIエンジン (背景グリッド/丸だけ)

背景グリッド or 白色のどちらが認識しやすいか確認したいけど、入力画像が異なっていたのでテスト用画像を作成しなおして確認した。

AIエンジン (背景グリッド/丸だけ) も画像サイズ等が原因で認識していなかった可能性があるので再度確認した。

考察

同じ文字でも背景色によって結果が異なる。また、次の画像のように画像サイズを揃えただけで認識しなくなった。※これは、そもそも丸を学習させる枚数、iteration 数が少ないからと思われる。

左が画像サイズを揃えていない。右が画像サイズを揃えた結果

テスト用画像（背景グリッド、白色）の画像サイズ、文字サイズを統一させて比較する: AIエンジン (背景グリッド/ ○×学習)

AIエンジンを背景黄色グリッド、○×学習させた物で比較する。結果は以下の通り。

次に文字の大きさ（○×の大きさ含む）について確認する。

考察

背景黄色グリッドと白色で結果はそこまで変わらないと考える。

採点する数が多い（丸の大きさが小さい？）と誤認識が多いことが分かる。これは○×のサイズによって（≒ 画像サイズによって）IoU Threshold を変更する必要ありそう。

比較的認識率が良い丸の数が少ない（１画面に20文字以下）画像に絞って考察を進める。

○×の位置を変えてみる

× 付近に赤文字があると認識しにくい可能性がある。IoU Threshold の関係で。

IoU Threshold を 0.0 を試す

IoU 0.5 vs IoU 0.0 比較

左がIoU Threshold 0.5, 右がIoU Threshold 0.0

ここまでの考察まとめ

ここで一旦考察をまとめる

AIモデル
・YOLOv2 (CreateML Object Detection)
・背景白色 / 赤文字 & 太文字 / ○×ラベリング
　画像枚数 175枚（○ 610、× 610）
・Iterations 2000 / Batch Size Auto

推論対象の画像は白色/黄色グリッドどちらでも大丈夫

推論対象は文字に被っていても良い

しかし、文字に被っていると認識率が甘い可能性がある

画像サイズによってIoU Threshold を変更する必要がある

・画像サイズ大（40 words くらい、542 x 571 pixel）IoU Threshold ??
・画像サイズ小（20 words くらい、270 x 505 pixel）IoU Threshold 0.0
　左 0.5 / 右 0.0

×の時に赤文字で訂正するとBounding Box が大きくなる
・現状、○×で対応する必要がありそう
・ゆくゆくは× → 訂正もできると良い

赤文字・太文字以外は認識しない

いいなと思ったら応援しよう！