特許の鉄人2024 第2試合で出題された問題について #2
1.はじめに
特許の鉄人2024とは弁理士同志がクレームドラフティングで対戦するイベントです。アイキャッチ画像は、ChatGPT (DallE3)で生成した特許の鉄人のイメージイラストです。
日時:8月24日(土曜日)
場所:大阪工業大学 梅田キャンパスOIT梅田タワーセミナー室204
主催:株式会社知財塾
第2試合で出題された問題であるVUEVO(ビューボ)について、前回の記事に引き続いて検討してみました。
2.第2試合で出題されたVUEVOについて
VUEVOとは、聴覚障害や聞こえにくさがある人と聴者のスムーズなコミュニケーションを支援するサービスです。詳しくは以下の動画をご覧ください。
VUEVOで使われるマイクは、集音データと方向データを取得する機能を有しています。
このマイクは、VUEVOのサイトに簡単な動作について記載されています。
また、VUEVOは、おそらく特開2024-027122号に記載されているマイクとおもいます。このマイクの動作について調査してみました。
3.VUEVOのサイトに記載の動作や仕様について
マイクが使用するワイヤレス通信路
VUEVOのサイトには以下のように記載されています。
・マイクが使用するワイヤレス通信路は、このFAQを見るとWifi回線のようです。FAQには「ご利用にあたっては、安定した2.4GHz帯を使用したWi-Fi回線が必要です。」と記載されていることから推定しました。
・「音声テキスト変換は、セキュアなクラウド上のサーバで処理されています。」と記載されています。ここから、マイクが検知した音声データはサーバに送られてテキストに変換されていると推測しました。当初、音声テキスト変換は、ローカルのPC上で行っているものと思い込んでいたので、これは当職の仕様把握ミスでした。
・そして、マイク仕様については以下の記載が見つけました。
これらの動作説明から、マイクが出力している音声ストリームは3本であると推定できます。重い処理である音声テキスト変換をサーバに担当させ、ユーザ端末(PCやスマホ)は、マップ画像の表示のみとする巧みな設計です。これにより、ユーザ端末の性能によらず、VUEVO のサービスを提供可能です。
つまり、当職が、マイクが出力している音声ストリームが1本であると断定してしまったのは誤りです。金子愛子先生のクレームの方が、仕様に沿った正確なものでした。すみませんでした>金子先生
VUEVOの推奨・必要環境
アプリ/ブラウザ推奨環境は以下です。
マイク接続の必要環境は以下です。
これらの仕様から推定したシステム動作は以下です。
1.マイクが複数の音源から信号分離した各音源の音声データと方向データの組合せをサーバ(cable.app.vuevo.net)に送信する。
2.サーバ(cable.app.vuevo.net)は、各音声データをテキストデータに変換する。そして、マップ画像における各音源の方向データに応じた方向に、それぞれテキストデータを描画する。
3.ユーザ端末(パソコンやスマートフォン、タブレット)は、サーバからマップ画像を取得して表示する。
4.特開2024-027122号のマルチマイクデバイスについて
特開2024-027122号の公開公報はこちらです。以下、この公開公報に基づいてマイク仕様等について検討いたします。
ビームフォーミング処理について
・段落0026の記載より、特開2024-027122号のマルチマイクデバイスは、ビームフォーミング処理を行っていることが判ります。
・段落0061,0062には、マルチマイクデバイスのビームフォーミング処理の詳細が記載されています。
電波のビームフォーミングとは、多数の小型のアンテナに給電する高周波の位相を制御することにより、指向性を変える技術のことをいいます。
音声でも同様に、ビームフォーミングによってアレイマイクロホンの信号を処理することで指向性を変えることができます。例えば以下には、アレイマイクロホンの選択的な極性応答について図示されています。
音声のビームフォーミングについては、以下の記事がありました。
「マイクに関していう時のビームフォーミングとは、設置した複数のマイクで発声者や周囲の雑音がどの方向から届いているかを判定し、特定の音を増幅/減衰させる技術を指します。
ビームフォーミングでは、マイクそのものは無指向性であっても、複数設置したマイクに届く音量の差・到達した時間の差をもとに計算して音源の方向を推定します。方向がわかれば、人間の声など対象にする音を強調することが可能になります。」(【連載】ガジェットTIPSより)
本願の図8の説明箇所に、マルチマイクデバイスの動作説明がありました。以下に引用します。図8は、3つの音源から音声データを同時に取得することが図示されています。
上記段落0063から0067には、角度A1,A2,A3の方向の3つの音源から飛来した発話音についての音声信号を並行して処理することが記載されているものと判断します。
音声認識処理について
音声認識処理については段落0070に記載されています。
この段落0070には、音声認識モデルがクラウドサーバに保存されていてもよいことが明記されています。
変形例について
特開2024-027122号には、変形例として以下が記載されています。請求項を記載する際には、これら全ての変形例を包含することが必要とおもいます。
(1)ディスプレイデバイス10およびコントローラ30が一体化。
(2)マルチマイクデバイス50とディスプレイデバイス10またはコントローラ30とが一体化。
(3)コントローラ30がクラウドサーバ内に存在。
ここでコントローラは音声認識とマップ画像の作成を行います。ディスプレイデバイスは、作成されたマップ画像を表示します。
現状のVUEVOの仕様で、コントローラ30はクラウドサーバに相当し、ディスプレイデバイス10はPCやスマホに相当します。
この公開公報には更に、段落0138から0149に、さまざまな変形例が細かく記載されており、大変に参考になります。
《ディスプレイデバイスの変形例》
ディスプレイデバイスの変形例として、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよいことが記載されています。ディスプレイデバイスは、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよいことが記載されています。
《ディスプレイの変形例》
ディスプレイの変形例として、以下が列挙されています。
・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
・液晶ディスプレイ
・網膜投影ディスプレイ
・LED(Light Emitting Diode)ディスプレイ
・有機EL(Electro Luminescence)ディスプレイ
・レーザディスプレイ
・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
《音声抽出処理の変形例》
ビームフォーミング処理に限定されず、Frostビームフォーマ、適応フィルタビームフォーミングが列挙されています。更にビームフォーミング以外の音声抽出方法一例として、周波数フィルタ、又は機械学習であってもよいことが記載されています。
5.終わりに
ここでは特許の鉄人2024の第2試合にて出題された問題の技術内容について検討しました。ここで出題されたVUEVOが極めて興味深かったためです。VUEVOは、サービスの殆どをクラウド化することで端末での処理を表示制御処理に限定し、よってWindows, MacOS, iOS, Android などに対応しやすくするものであると推定いたしました。果たしてこの推定は当たっているでしょうか。
このような構成の場合、どのようなクレームが最も適切かもいろいろと考える必要があるとおもいました。