【技術深堀】無人化の救世主なのか？商品画像認識システムの落とし穴

2019年8月3日 14:20

《注意》
本記事は8月に「夏休み期間限定」として公開されていた記事の加筆修正版うです。9月2日にNTTデータさんが中国CloudPickさんと協力してAmazonGO型無人店舗のデモ店舗を出したとの報道があったので（下記公式動画参照のこと）、2019年9月4日に加筆修正し、かつ期間限定ではなく正式公開にしました。

【近未来の買い物体験を実現】
NTTデータは9月2日より、レジ無しデジタル店舗出店サービスを小売業界向けへ提供開始しました。六本木「AQUAIR™」に実験店舗を設置し、ビジネスプランの仮説作成から多店舗展開するための企画・設計のサポートまでをおこなっていきます！詳細⇒ https://t.co/DL3gbY62UY pic.twitter.com/A8xF9tGajo
— NTTデータ広報部 (@NTTDATA_PR) September 2, 2019

----------

《2019年9月4日加筆修正》

■最初にクイズ

まずはこの画像を見てください。ちなみに写真は私が出張の時によく飲むサントリーさんのプレモルです。

https://www.suntory.co.jp/beer/kaoruale/

さてこの画像の中にビールは「何種類」映っているでしょうか？

…

答えは出ましたでしょうか？それでは正解です。

★それぞれ内容量が異なる別商品★

…どうでしたか？合っていましたか？…そうなんです。「その商品が一体どういう商品なのか」を画像だけで判断するのは非常に難しい、それを知ってほしいためにこのクイズを書きました。

これを念頭にこれからの記事を読んでいただけると商品画像認識の問題点が分かっていただけると思います。

■AmazonGOでは使われていない？商品画像認識

商品を手に取るだけで購入ができる…鳴り物入りでAmazonGOが登場したのは2016年12月5日のことでした。入店時にQRコードをかざし、あとは商品を手に取って退店すれば後から請求される…消費者から見れば夢のようなシステムにいろいろな人が驚いたと思います。

天井に大量に配置されたカメラを見て「ああ、これで人が手に取った商品を判断しているのか」と思った人も多かったはず。実際、米StandardCognitionはその考え方を踏襲して天井カメラのみの無人店舗サービスを展開しています。

ですが、そうではないようです。

いろいろな情報を総合してみると、少なくとも初期の店舗は天井カメラを商品認識に使っていないと思われます。どうしてかと言うと、「商品棚から取り出す商品を隠したままカバンに入れても認識される」ことからです。でも、天井カメラが商品棚を見ているのでは…と思うかもしれませんが、それが無理なのは商品棚の欠品検知システムが全て真横からの画像に頼っていることから分かると思います。

商品画像認識を使えば簡単に無人化できる…そう考える人は少なからずいると思うのですが、非常に高いハードルがあると考えた方がよさそうです。それでは、いったい何が問題なのでしょうか？

■商品画像認識の盲点…①速度に弱い

それではどういった弱点が商品画像認識にはあるのでしょうか？少しずつ見ていきたいと思います。

「早すぎて見えない！」なんてのはドラゴンボールみたいなバトル漫画では当たり前の話ですが、当然のことながら画像認識でも同じことが起きます。

画像認識はその名の通り「画像認識」であり、動画として取得したデータをタイムスライスして画像にし、それを分析している…と荒っぽく理解してもらえばよいと思いますが、それゆえにそのタイムスライスの間に商品が取られてしまうと商品画像を拾うことができず、取ってないと判断されるのです。

手に取って持ったまま歩いてもらえれば良いのですが、商品カゴにそのまま入れられたりその上に商品が重なったりするともうお手上げです。

■商品画像認識の盲点…②画角に弱い

缶ジュースっていろいろありますよね。みなさん真横から商品名を見て判断していると思うのですが、これを真上から見て判断できますか？

人はカメラを意識してものを取るわけではないので、意図せず分かりにくい画角で取ってしまうことが容易にあります。こうなると商品を判断することはできないので、「取ったことは分かっても何を取ったかまでが分からない」状態になります。

また、たとえ斜めでかろうじて商品名を読み取れたとしても、日本の場合同じ外観で内容量が違う商品は結構あるので、それを小さな画像だけで判断するのはまず無理だと思った方がよいです。

■商品画像認識の盲点…③隠蔽に弱い

そして当たり前と言えば当たり前なのですが、隠蔽には全く抵抗できない。単純に商品に布か何かをかけて取り出されると判定できないということはもちろんのこと、重ねて取られたりすると1つの商品がもう1つの商品の陰になったりしたら判断できなくなります。

じゃあ棚から減っていたらそれで判断できるのでは…と思うかもしれませんがそうは行かない。棚から消えたと言ってもじゃあ棚の奥から取ったらどうなるのか、取った後に気が付かず落としてしまっていたらどうするのか、さらにはそれを取った人がお店を出ていったらどう判断するのかなど、結構分岐が多く管理が大変なのです。

■画像認識の盲点…④SKUの多さに弱い

いくらネットワークが安くなったといっても速度とコストの制限はいまだに厳しく、今のところリアルタイム処理をクラウド側で行うことは無理な状態です。となるとローカル側で処理することになるのですが、当然商品を判断するためのリソースが必要となるため、商品の検知可能数はローカルリソースの多さに依存することになります。

そう考えると、一般的なコンビニクラスで3000種類程度のアイテム種があると言われる日本ではこのリソースをローカルで確保することが大変で、かなりの高性能な機材を使うことになります。日本と比較するとアイテム種が少ないと言われる米国ウォルマートですら店舗にわざわざ専用サーバスペースを構えなければならないぐらいリソースを喰うものを、ただでさえスペースが少ないコンビニやスーパーに用意するのは正直現実的ではないと思われます。

もちろん将来的には5Gモバイルネットワークが解決する可能性はあります（高速通信だけではなく、高密度運用が可能なため）。ただ、5Gが安定稼働するのは2年以上先の話なので、それまでには違う解決が出てくるかもしれませんね。

■商品画像認識は死んだのか？

…ということで商品の画像認識のみで課金を行うことがかなりリスクが高いことがお判りいただけたと思いますが、それらの弱点を利用方法を制限することでクリアしようとする動きがあります。1つは中国・YI-Tunnel社の無人販売ショーケースです。

日本では高千穂交易さんが輸入することを発表されていましたが、カメラが上下に2台ついていおり、それを使って庫内から商品を取り出したことを検知するものです。画像認識オンリーですが、扉を開けてそこから取り出すという人間の行動をナチュラルに制限しつつ、庫内に収められる商品点数を制限することで認識するためのリソースを少なくできるのが特徴です。店舗と言う規模では使えなくても、数を束ねればキオスク程度は機能するので、そういった使い方をしてみるのも面白いかもしれません。

■センサーフュージョンと言う考え方も

また、技術的な部分だけに限って言えばAmazonGOの仕組みが最もスマートであると思われます。商品判定は商品棚の作り方と重量センサーやLiDRに任せ、人流をカメラで可能な限り高精度に追跡することで「商品が減った」と「そこに誰がいたか」を組み合わせて購入判定を行い、少なからず起きる誤判定も「理由を問わないのでその場でキャンセル」できる仕組みにすれば少なくともクレジットベースの商取引としては合格点だと思います。NTTデータさんとCloudPickさんの組み合わせ（RGBカメラ＋赤外線カメラと重量センサーの組み合わせ）はこの流れですね。

もちろん、コスト度外視なので採算が合うかはまた別の話ですが…。

ということで、なかなかに問題点の多い商品画像認識システム。今のところ単独では使えずセンサーフュージョンでのみ生きる高額システムになっておりますが、使い方によっては革命的な方式が生まれるかもしれませんね。