生成AIは地図が不得手。そこをなんとか、と考えてみた。
視覚障害者にとって、どの音声ナビも使いづらい。片や、生成AIは地図を扱えない。それでも我々は一人で歩きたい。そのチャレンジと提案です。
【背景の説明】
ハンドル名にあるように、私は自分用に音声ナビを作り、それで8年ほど歩き続けている。
そして、視覚障害者のあいだで音声ナビが広まっていかない本質的な理由について考え続けている。
結論を端的に言うなら「晴眼者と視覚障害者とでは、音声ナビに求める機能がちがう。それが考慮されていない」ということに行き着く。
開発した人が、目隠しをして自分で歩いてみればかなりのところは分かるはずなのだが。
【歩行ナビに求める機能のちがい、晴眼 vs 視覚障害】
晴眼者用の音声ナビ
目でみてわからない情報を提供する。たとえば、はじめての訪問先への道筋。
視覚障害者用の音声ナビ:
視覚から得られるはずの情報を補ってほしい。
一般の歩行ナビは、見ればわかるような情報は与えてくれない。したがって、それを音声化しただけでは、必要な情報が得られないし、不必要な情報が流れてきて、タイムラインの時間を無駄にする。
【視覚障害者のナビの用途と要求】
通っている歯医者に一人で行きたい。(通っている歯医者にナビで行く晴眼者はいない)
・ 歯医者に行くための、遠回りでもいいが、安全で慣れたルートを使いたい。
・ 遠回りでも点字ブロックや横断歩道橋があるルートを使いたい。
・ 見えていた時代に歩いていた、なじみのルートを歩きたい。
これが切実なニーズなのです。
【ナビの仕様を考えるためのMUST項目】
① ユーザは周辺も地図も見えない。
② ボタン操作は、スクリーンリーダーが発生する音声リアクションをたよりになされる。周囲はうるさいし、右手には白杖を持っている。
【要求仕様の実現】
上記を解決するには、デバイスとのやりとりが 自然語による対話 でなされるのが一番適していると考える。そして、そこに生成AIへの期待が募る。
【生成AIは地図の扱いが不得手】
GoogleのGeminiとGoogle Mapが連携して動作する、ということで調べたが、結果に落胆した。詳細は略すが、現在の生成AIは地図データをそのまま扱えない。
カーナビで、運転しながら走行経路の変更などができればすばらしいと思う。それが存在しないのは、まだそれができないからである。
以下、地図が直接扱えない生成AIを使って、どうやって対話型の音声ナビを実現するかについて述べる。
【対話によって経路をカスタマイズしたい】
どんなナビも、目的地を入れると最短経路、あるいは追加で少数の候補を挙げてくる。
ここで以下の問題が起きる:
① 地図が見えないと、経路の事前確認(理解)がほとんど無理。
② 提案されたルートを修正することがほとんど無理。
そこで、生成AIを使った対話型のソリューションを考えた。
【生成AIを使った事前のソリューション】
以下、Google Mapという言葉で代表して説明するが、ほかの地図DBでもよい。
■ 骨子
始点と終点をつなぐルートを多数提案させる。たとえば数十本とか。
それらのルートのうちから希望するルートを対話によって選び出す。候補経路の数が多ければ、きっと自分が望んでいる経路も含まれるだろう、という考えです。
この、多数の候補ルートの中から好みのルートを選び出すのに対話型の生成AIを使うわけです。
【松本市で歩行経路を作ってみた】
松本駅と松本城の間には女鳥羽側が流れ多くの道路は女鳥羽橋に収斂する。ここでは、駅から女鳥羽橋までの歩行経路を多数提案させる方法を述べる。
① 始点を松本駅の駅前、終点を女鳥羽橋にする。
② 始点と終点を直線で結ぶ。その中間地点に長さ500mほどの直線を直交させる。全体として十字の形状になる。
③ 直交して作った線分上に、50m間隔ほどで「中間経由点」を作成する。三角法を使って機会的に作る。
これで、始点-中間経由点-終点 のセットが10組みほどできるので、その経路を検索させます。中間経由点は、ビルの中など、経路外でもかまわない。
実際の作業として、12本ほどの経路ができ、うち、6本ほどが実用になる経路として残った。
結果的には、この6本で現実として可能性のある歩行経路はほぼカバーされていた。
うち2本を画像で紹介します。
1枚めの画像は、
2枚めの画像は、
この経路では、全工程に点字ブロックが敷設されている。なお、多くの白杖歩行者は、どの道に点字ブロックがあるか、だいたい記憶している。
【対話によってルートをカスタマイズする手順】
Google Mapでは、検索結果としての経路データをAPIで出力してくれる。
その経路データに適当な変換をほどこすなら、始点から終点を3mごとに立ち止まりながら周辺をウオッチして歩ける。もちろんバーチャルです。
これで、当該経路において関連する付加的情報を得るわけです。
たとえば:
横断歩道、踏切、20m以内にある施設名、橋、ガード、コーナーでの曲がり確度・・・、など。
衛星写真を解析すれば横断ゼブラや点字ブロックは抽出できる。
これら厖大な付帯情報をルートに関連づけてメモリーに格納する。多分、数秒で終わる作業です。
【ユーザとの対話をはじめる】
その大量の情報(テキスト情報)を生成AIが、ユーザと対話しながら検索してレスポンドするわけです。
たとえば:
「踏切を通るルートはのぞいてください」
「5本のルートが残りました」
「曲がり角が一番少ないルートを選んでください」
「1本のルートが合致しました」
「そのルートは何mですか」「650mです」
などといった具合で、よければナビをはじめます。
【歩き始めてからの活用】
現在のナビはいろんな案内オウン制がプッシュ型で発せられます。シリアル発信だから、重要な情報が不要な情報のあとになったりする。
白杖歩行者は、雑談をしながら歩いたりしない。それほど、耳からの情報は大切、聞き逃ししないよう構えています。
だからこそ、情報はオンデマンドで、プル型方式で得るのが望ましい。「ローソンまではあと何mくらいですか」とか、質問したときに応えてくれる。
質問を受けたアプリは、出発時点で獲得した情報から該当する回答を得て発話します。まさに生成AIの出番です。
【最後に】
視覚障害者を想定した歩行ナビにおいては、ユーザインターフェイス手段としては、自然語による対話がベストである。そこには生成AIが役に立つ。
以下は、2枚目の画像で紹介した経路のリンクです。