見出し画像

VLMを用いた店舗内の混雑度のリアルタイム推定


はじめに

飲食店や小売店において、店舗内の混雑は避けられないものです。しかし、混雑状況をリアルタイムに把握することで、店舗運営の効率化だけでなく顧客の不満を和らげる効果が期待できます。
実際に、待ち時間に関する研究『購買に伴う待ち時間が消費者行動に与える影響』では次のようなことが明らかにされています。

レストランを例にとると、サービス提供フェーズは 「事前プロセス:レストランに到着してから注文するまで」 「プロセス中:注文してから食事を終えるまで」 「事後プロセス:支払いを終えてレストランを出るまで」 の 3 段階に分類できる(DubéRioux et al. 1989)。 いずれのフェーズも顧客を待たせる可能性があるが、事前プロセスで発生する待ち時間はもっとも不快な印象を与えるとされている(Dubé-Rioux et al. 1989; Maister 1985)。

https://www.jstage.jst.go.jp/article/acs/24/2/24_2_73/_pdf

いつまで待てばよいか分からない不安がストレスの要因となるため、彼は、消費者に待ち時間の状況をリアルタイムで提示することが重要であるとした。

https://www.jstage.jst.go.jp/article/acs/24/2/24_2_73/_pdf

このことから、行列に並ぶ待ち時間(=事前プロセス)は”最も不快な体験とマイナスな一面を持ち、適切に管理をして待ち時間の見える化を行い、顧客のストレスを低減させることで、他店舗との差別化に繋がる可能性があることが分かります。

しかし、多くの店舗では混雑状況を適切に把握できていないため、待ち時間を知らせることなく顧客を長時間待たせたり、スタッフの配置が不適切になったりといった課題が発生しています。
このような状況では、待ち時間が明確でないため顧客が他の店舗へ行ったり、人件費の無駄やサービス品質の低下を引き起こしたりするなど、他店への流出や店舗サービスの遅延などを招く恐れがあります。

本記事では、上記課題の解決のためにVision Language Model(VLM)という画像認識に特化した生成AIを活用して、混雑状況をリアルタイムに把握する一連の流れを紹介し、店舗運営の効率化と顧客満足度の向上をどのように目指すのかについて説明していきます。

混雑度の把握ができないことによる懸念

混雑度の把握をリアルタイムで行うことが難しい場合、以下のような問題が引き起こされると想定されます。

  • 他店への流出:待ち時間が不明確なことに対して顧客がストレスを感じ、結果として顧客満足度の低下のみならず顧客が他店へ流出するといった恐れがある。

  • スタッフ配置の難しさ:混雑時に十分な人員を確保できない、あるいは閑散時に過剰な人員が配置されることにより、サービス遅延や余分な人件費が生じてしまう可能性がある。

  • 問い合わせ対応コストの増加:混雑状況が不明な場合、顧客からの問い合わせが増加し、それに伴い対応コストが増加。スタッフがその対応に時間を取られるため、店舗内の顧客対応にも影響が出る恐れもある。

これらの課題に対応するため、混雑状況を正確かつリアルタイムで把握し、それに基づいた適切な対応を行う必要があります。

課題に対するソリューション

混雑度の正確な把握や予測には、いくつかの技術的手法が有効です。代表的なソリューションを紹介します。

  1. 過去データによる予測
    過去の来店データを基に、特定の曜日や時間帯の来店者数を予測する手法です。例えば、時間別の混雑状況を予測し、ピーク時に備えたスタッフ配置を計画することが可能となります。既存データがある場合は比較的導入が容易ですが、来店データがないとすぐの導入は難しいです。
    事例:https://prtimes.jp/main/html/rd/p/000000004.000048800.html

  2. 画像認識技術による推定
    監視カメラやセンサーを利用し、画像認識技術(物体検出、人物トラッキング、セグメンテーションなど)を駆使して、リアルタイムで店舗の混雑度を推定する手法です。この手法は、来店者の数や動きを正確に捉え、高精度な推定が可能な一方、事前に多くの学習データが必要となり、初期導入コストが高い点が課題です。
    事例: https://news.mynavi.jp/techplus/article/20200612-1052184/

  3. 画像認識に特化した生成AI(VLM)による推定
    Vision Language Model(VLM)は、画像とテキストの両方を理解するモデルで、基本的に学習データを必要とせず、Zero-shotで画像の状況を認識することが可能です。この技術により、導入が容易でありながら、高精度かつリアルタイムの混雑度推定が実現します。

これらの手法の中でも、VLMは特に導入が簡便でありながら高い精度を誇るため、店舗における混雑度の推定において非常に有効となり、今回デモのツールとして採用しました。

デモ

今回は店舗内に並んでいる画像を例として、VLMを用いた混雑度推定を行うデモを作成しました。具体的には列に並んでいる人数をVLMに推論させ、以下のルールに従って混雑度を推定してもらいます。

  1. 混雑度低:0~3人

  2. 混雑度中:4~9人

  3. 混雑度高:10人以上

上記のデモでは弊社独自のモデルとChatGPTを使用し、それぞれの推論結果を比較することで精度に差があるかを確認しました。
以下に使用した画像とそれに対する推論結果をまとめています。

結果から分かる通り、VLMを用いることで学習データの準備やモデル学習、複雑なコーディング等をすること無く、ChatGPT以上に正確かつリアルタイムで把握できることができました。
また、単に混雑かどうかを判定するだけでなく、その情報を店舗スタッフや顧客に通知するフローを組み込んだり、混雑度の定義を詳細に決めることで、より店舗現場のオペレーションにあった混雑度推定を実現できるようになります。

終わりに

本記事では、生成AIの1つであるVision Language Model(VLM)を活用した店舗の混雑度推定について説明しました。実際にVLMを使ったデモを通じて、並んでいる人数や空き状況をリアルタイムで正確に把握でき、冒頭述べた課題を解決できることも確認できたかと思います。
また、過去データからの予測では対応が難しかったり、画像解析の開発コストが高いため導入まで至らなかったりする場合、VLMはそれらの代替手段として有効に利用できるツールであり、混雑把握に関するAI導入への一歩となり得るのではないでしょうか。

弊社のAI Transformation(AX)事業部では、ご紹介したVLMを用いた混雑状況の把握に限らない、AIを活用した企業の業務変革をご支援しています。事業に関するお問い合わせやご相談は、以下の連絡先までお願いします。