【画像解析】Google Cloud Vision と AWS Rekognition を比較してみた（OCR）

2019年5月5日 16:59

今回は、GCPとAWSが提供している画像解析のサービス「Google Cloud Vision」と「Amazon Rekognition」のどちらがテキスト抽出（以下、OCR）で期待した結果が得られるのか試してみました。

OCRとは？

そもそもOCRとはなんでしょうか。Wikipediaを確認してみると次のように記載されています。

光学式文字認識（OCR）は、活字の文書の画像（通常イメージスキャナーで取り込まれる）を文字コードの列に変換するソフトウェアである。

これだと何を指しているか分かりません。簡単に説明すると、「画像にある情報で文字だと思われるものをテキストに変換すること」と覚えておけば大丈夫です。

実際に、次で試した内容を確認したら良く分かると思います。

今回利用する画像はこちらです。中華屋さんのメニューから切り抜きました。

この画像から抽出したいテキストは以下です。

焼き飯
ハーフ焼き飯
ハーフ焼き飯＋唐揚げ
あんかけ焼き飯
中華飯
天津飯

それでは早速比較してみましょう。

まずは「Google Cloud Vision」で、どの程度テキストが抽出できるのか試して見ました。結果がこちら。

ほとんど期待する結果が得られているように思います。

次に「AWS Rekognition」で試してみます。

・・・全然抽出できてないですね。言語設定とかが必要だったのでしょうか。

OCRに関しては圧倒的に「Google Cloud Vision」を利用した方が良さそうです。他にも画像のラベリングなどの機能もあるので、また比較してみようと思います。

OCRを利用したアプリがこちらです。良かったら利用して見てください。

サポートして頂くと、こちらからもサポート返しさせて頂きます。