特許の鉄人2024　第２試合で出題された問題について #2

綾木健一郎

2024年8月31日 14:37

１．はじめに

　特許の鉄人２０２４とは弁理士同志がクレームドラフティングで対戦するイベントです。アイキャッチ画像は、ChatGPT (DallE3)で生成した特許の鉄人のイメージイラストです。

　日時：８月２４日（土曜日）
　場所：大阪工業大学　梅田キャンパスOIT梅田タワーセミナー室２０４
　主催：株式会社知財塾

第２試合で出題された問題であるVUEVO（ビューボ）について、前回の記事に引き続いて検討してみました。

２．第２試合で出題されたVUEVOについて

VUEVOとは、聴覚障害や聞こえにくさがある人と聴者のスムーズなコミュニケーションを支援するサービスです。詳しくは以下の動画をご覧ください。

VUEVOで使われるマイクは、集音データと方向データを取得する機能を有しています。

このマイクは、VUEVOのサイトに簡単な動作について記載されています。

また、VUEVOは、おそらく特開2024-027122号に記載されているマイクとおもいます。このマイクの動作について調査してみました。

３．VUEVOのサイトに記載の動作や仕様について

マイクが使用するワイヤレス通信路

VUEVOのサイトには以下のように記載されています。

ピクシーダストテクノロジーズの独自技術で、設計・開発したワイヤレスマイクです。限られた内部スペースに8つの高性能マイクを内蔵し、360°全方向から音声を集音しながら発話者の方向を特定。精度の高い音声認識で正確なテキスト変換と方向表示を実現します。

マイクは軽量・コンパクトで携帯しやすく、ワイヤレスで使えます。

・マイクが使用するワイヤレス通信路は、このFAQを見るとWifi回線のようです。FAQには「ご利用にあたっては、安定した2.4GHz帯を使用したWi-Fi回線が必要です。」と記載されていることから推定しました。

・「音声テキスト変換は、セキュアなクラウド上のサーバで処理されています。」と記載されています。ここから、マイクが検知した音声データはサーバに送られてテキストに変換されていると推測しました。当初、音声テキスト変換は、ローカルのＰＣ上で行っているものと思い込んでいたので、これは当職の仕様把握ミスでした。

・そして、マイク仕様については以下の記載が見つけました。

https://vuevo.net/service/#technology より引用

これらの動作説明から、マイクが出力している音声ストリームは３本であると推定できます。重い処理である音声テキスト変換をサーバに担当させ、ユーザ端末（PCやスマホ）は、マップ画像の表示のみとする巧みな設計です。これにより、ユーザ端末の性能によらず、VUEVO のサービスを提供可能です。

つまり、当職が、マイクが出力している音声ストリームが１本であると断定してしまったのは誤りです。金子愛子先生のクレームの方が、仕様に沿った正確なものでした。すみませんでした＞金子先生

VUEVOの推奨・必要環境

アプリ／ブラウザ推奨環境は以下です。

マイク接続の必要環境は以下です。

これらの仕様から推定したシステム動作は以下です。

１．マイクが複数の音源から信号分離した各音源の音声データと方向データの組合せをサーバ（cable.app.vuevo.net）に送信する。
２．サーバ（cable.app.vuevo.net）は、各音声データをテキストデータに変換する。そして、マップ画像における各音源の方向データに応じた方向に、それぞれテキストデータを描画する。
３．ユーザ端末（パソコンやスマートフォン、タブレット）は、サーバからマップ画像を取得して表示する。

４．特開2024-027122号のマルチマイクデバイスについて

　特開2024-027122号の公開公報はこちらです。以下、この公開公報に基づいてマイク仕様等について検討いたします。

ビームフォーミング処理について

【００２６】
　マルチマイクデバイス５０は、複数のマイクロホンを備える。以下の説明では、マルチマイクデバイス５０は、５つのマイクロホン５１－１，・・・，５１－５（以下、特に区別しない場合は単にマイクロホン５１と表記する）を備えることとする。マルチマイクデバイス５０は、マイクロホン５１－１，・・・、５１－５を用いて、音源から発せられた音を受信（集音）することで音声信号を生成する。また、マルチマイクデバイス５０は、マイク座標系における音の到来方向（つまり、音源の方向）を推定する。また、マルチマイクデバイス５０は、後述するビームフォーミング処理を行う。

特開2024-027122号

・段落００２６の記載より、特開2024-027122号のマルチマイクデバイスは、ビームフォーミング処理を行っていることが判ります。

【００６１】
・・・中略・・・
マルチマイクデバイス５０が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
【００６２】
マルチマイクデバイス５０は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

特開2024-027122号

・段落００６１，００６２には、マルチマイクデバイスのビームフォーミング処理の詳細が記載されています。

電波のビームフォーミングとは、多数の小型のアンテナに給電する高周波の位相を制御することにより、指向性を変える技術のことをいいます。

音声でも同様に、ビームフォーミングによってアレイマイクロホンの信号を処理することで指向性を変えることができます。例えば以下には、アレイマイクロホンの選択的な極性応答について図示されています。

音声のビームフォーミングについては、以下の記事がありました。

「マイクに関していう時のビームフォーミングとは、設置した複数のマイクで発声者や周囲の雑音がどの方向から届いているかを判定し、特定の音を増幅／減衰させる技術を指します。
ビームフォーミングでは、マイクそのものは無指向性であっても、複数設置したマイクに届く音量の差・到達した時間の差をもとに計算して音源の方向を推定します。方向がわかれば、人間の声など対象にする音を強調することが可能になります。」（【連載】ガジェットＴＩＰＳより）

本願の図８の説明箇所に、マルチマイクデバイスの動作説明がありました。以下に引用します。図８は、３つの音源から音声データを同時に取得することが図示されています。

【００６３】
図８に示される例では、マルチマイクデバイス５０は、計算された角度Ａ１をビームフォーミングモデルに入力し、ｘ軸から右方向に角度Ａ１ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス５０は、計算された角度Ａ２をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ２ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス５０は、計算された角度Ａ３をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ３ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
【００６４】
マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ１について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ１に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【００６５】
マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ２について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ２に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【００６６】
マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ３について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ３に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【００６７】
マルチマイクデバイス５０は、抽出した音声信号を、ステップＳ１５１において推定した当該音声信号に対応する音源の方向を示す情報（つまり、マルチマイクデバイス５０に対する音源の方向の推定結果）とともに、コントローラ３０へ送信する。

特開2024-027122号

上記段落００６３から００６７には、角度A１，A２，A３の方向の３つの音源から飛来した発話音についての音声信号を並行して処理することが記載されているものと判断します。

音声認識処理について

音声認識処理については段落００７０に記載されています。

【００７０】
ステップＳ１３０の後、コントローラ３０は、音声認識処理（Ｓ１３１）を実行する。
記憶装置３１には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置３１の代わりに、コントローラ３０がネットワーク（例えばインターネット）を介してアクセス可能な外部装置（例えばクラウドサーバ）に保存されていてもよい。

特開2024-027122号

この段落００７０には、音声認識モデルがクラウドサーバに保存されていてもよいことが明記されています。

変形例について

【０１３７】
・・・中略・・・。しかしながら、ディスプレイデバイス１０およびコントローラ３０は一体化されてもよい。例えば、ディスプレイデバイス１０およびコントローラ３０が１台のタブレット端末またはパーソナルコンピュータとして実装可能である。また、マルチマイクデバイス５０とディスプレイデバイス１０またはコントローラ３０とが一体化されてもよい。また例えば、コントローラ３０がクラウドサーバ内に存在してもよい。

特開2024-027122号

特開2024-027122号には、変形例として以下が記載されています。請求項を記載する際には、これら全ての変形例を包含することが必要とおもいます。

（１）ディスプレイデバイス１０およびコントローラ３０が一体化。
（２）マルチマイクデバイス５０とディスプレイデバイス１０またはコントローラ３０とが一体化。
（３）コントローラ３０がクラウドサーバ内に存在。

ここでコントローラは音声認識とマップ画像の作成を行います。ディスプレイデバイスは、作成されたマップ画像を表示します。
現状のVUEVOの仕様で、コントローラ３０はクラウドサーバに相当し、ディスプレイデバイス１０はPCやスマホに相当します。

この公開公報には更に、段落０１３８から０１４９に、さまざまな変形例が細かく記載されており、大変に参考になります。

《ディスプレイデバイスの変形例》
ディスプレイデバイスの変形例として、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよいことが記載されています。ディスプレイデバイスは、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してＡＲ（Augmented Reality）表示を行ってもよいことが記載されています。

《ディスプレイの変形例》
ディスプレイの変形例として、以下が列挙されています。
・光学素子（一例として、導光板）を用いたＨＯＥ（Holographic optical element）又はＤＯＥ（Diffractive optical element）
・液晶ディスプレイ
・網膜投影ディスプレイ
・ＬＥＤ（Light Emitting Diode）ディスプレイ
・有機ＥＬ（Electro Luminescence）ディスプレイ
・レーザディスプレイ
・光学素子（一例として、レンズ、ミラー、回折格子、液晶、ＭＥＭＳミラー、ＨＯＥ）を用いて、発光体から発光された光を導光するディスプレイ

《音声抽出処理の変形例》
ビームフォーミング処理に限定されず、Ｆｒｏｓｔビームフォーマ、適応フィルタビームフォーミングが列挙されています。更にビームフォーミング以外の音声抽出方法一例として、周波数フィルタ、又は機械学習であってもよいことが記載されています。

５．終わりに

ここでは特許の鉄人２０２４の第２試合にて出題された問題の技術内容について検討しました。ここで出題されたVUEVOが極めて興味深かったためです。VUEVOは、サービスの殆どをクラウド化することで端末での処理を表示制御処理に限定し、よってWindows, MacOS, iOS, Android などに対応しやすくするものであると推定いたしました。果たしてこの推定は当たっているでしょうか。
　このような構成の場合、どのようなクレームが最も適切かもいろいろと考える必要があるとおもいました。

特許の鉄人2024 第２試合で出題された問題について #2

１．はじめに

２．第２試合で出題されたVUEVOについて

３．VUEVOのサイトに記載の動作や仕様について

マイクが使用するワイヤレス通信路

VUEVOの推奨・必要環境

４．特開2024-027122号のマルチマイクデバイスについて

ビームフォーミング処理について

音声認識処理について

変形例について

５．終わりに

いいなと思ったら応援しよう！

特許の鉄人2024　第２試合で出題された問題について #2