「名前を呼んでくれるゲームシステムをコナミが独占した」というデマ：『ときめきメモリアル2』EVS特許の読解

2023年5月14日 18:20

本稿の概要

『ときめきメモリアル2』の音声合成システムEVS（Emotional Voice System）に関する特許の権利範囲を読み解いた。
EVS特許の権利範囲は、ある特定の方法による音声合成に限定されている。
EVS特許は、プレイヤーの名前を呼んでくれるシステムを独占できる特許ではない。

はじめに

『ときめきメモリアル2』は、コナミから1999年11月25日に発売された恋愛シミュレーションゲームです。この作品には、プレイヤーの名前を入力するとゲーム内の人物がそれを自然な抑揚で呼んでくれる、EVS（Emotional Voice System）というシステムが初めて実装されました。

EVSはその後、『ときめきメモリアル3』『ときめきメモリアル Girl’s Side』『テニスの王子様ぎゅっと！ドキドキサバイバル海と山のLove Passion』といった同社のゲームや、PCソフト『ときめきメールボックス』にも、各形態向けにカスタマイズされて採用されています。

さて、このシステムに関連して、しばしば耳にする言説があります。「コナミはEVSに関連する特許により、プレイヤーの名前をキャラクターが呼んでくれるゲームシステムを独占しており、他社のゲームではそのようなシステムを実装できない」というものです。しかし、この言説は誤りです。

『ときめきメモリアル2』のEVSに対応する音声合成技術は、確かにコナミから出願され、特許として成立しています（後述する通り2017年に失効済）。しかし一方で、当該特許の権利範囲はある特定の方法による音声合成に限定されています。この特許では、プレイヤーの名前を呼んでくれるシステムを独占することはできません。

本稿では、当該特許の経過情報（出願から成立、失効までの経緯）を整理します。その上で本特許の権利範囲を読解し、プレイヤーの名前を呼んでくれるシステムを独占していないと判断できる根拠を示します。

当該特許の経過情報

EVS特許と目されているのは、日本国特許第3361291号「音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体」です。

この特許は1999年7月に出願、2001年2月に公開されました。審査請求および特許庁での審査を経て2002年9月に特許査定が下り、登録されています。

特許の権利期間は出願から最長20年間と定められています。本特許の出願日から起算するなら、本来であれば維持年金を支払い続けることで、2019年7月まで権利が維持される可能性がありました。しかしメーカが2016年を最後に維持年金の納付を中止したことで、本特許は期間満了を待つことなく2017年に失効しています。

特許の権利範囲読解の前提

まずは特許の権利範囲について、大前提を書いておきます。

特許の権利範囲は、特許公報に記載された「特許請求の範囲」で決定されます（特許法第70条第1項）。「特許請求の範囲」に登場する用語の語義の解釈には図面や明細書が用いられますが（特許法第70条第2項）、図面や明細書だけを根拠に権利範囲を判断してはなりません。

特許請求の範囲を示さずに、明細書の一部や図面のみを貼って特許の権利範囲を説明しようとするウェブサイトやツイートは、全て誤りです。

また、特許の権利範囲である「特許請求の範囲」は、「請求項」と呼ばれる項目の羅列で記載されています。なかでも権利範囲を決定付けるのは、他の請求項を引用していない「独立項」と呼ばれる請求項です。他の請求項を引用している「従属項」は独立項よりも権利範囲が狭くなるため、権利範囲の解釈の際に考慮する必要は（基本的には）ありません。

EVS特許の権利範囲の読解

EVS特許の独立項は請求項1,4,7の3つ。それぞれ「音声合成方法」「音声合成装置」「音声合成プログラムを記録した媒体」に注目して書かれていることを除けば、実はこれら3つは実質的にほぼ同内容です。そこで本稿では請求項1について読解を進めます。

さて、請求項1の原文は以下の通りです。

【請求項１】入力された文字列に対応する音声メッセージデータを作成する音声合成方法であって、少なくとも１つの文字を含む文字列（単語）をそのアクセント型とともに多数収録した単語辞書と、該単語辞書に収録された文字列に対する韻律情報を表す韻律モデルデータのうちの代表的な韻律モデルデータを収録した韻律辞書と、収録音声を合成単位の音声波形データとして収録した波形辞書とを用い、入力文字列のアクセント型を決定し、入力文字列とアクセント型に基づいて韻律辞書から韻律モデルデータを選択し、該選択した韻律モデルデータの文字列が入力文字列と一致しない場合は該韻律モデルデータの韻律情報を入力文字列に合わせて変形し、韻律モデルデータに基づいて入力文字列の各文字に対応する波形データを波形辞書から選択し、該選択した波形データ同士を接続する音声合成方法において、文字列、モーラ数、アクセント型及び音節情報を含む韻律モデルデータを収録した韻律辞書を用い、入力文字列の音節情報を作成し、韻律辞書中より、入力文字列とモーラ数及びアクセント型が一致する韻律モデルデータを抽出して韻律モデルデータ候補とし、韻律モデルデータ候補のうち、その全ての音素が入力文字列の音素と一致する候補があればこれを最適韻律モデルデータとし、全ての音素が一致する候補がなければ、韻律モデルデータ候補のうち、入力文字列の音素と一致する音素の数が最大の候補を最適韻律モデルデータとし、一致する音素の数が最大の候補が複数ある場合は、そのうちの連続して一致する音素の数が最大の候補を最適韻律モデルデータとすることを特徴とする音声合成方法。

日本国特許第3361291号公報（2002）

もちろん読み飛ばされたものと思います。以下に順を追って整理します。請求項１に対応する権利は、以下に挙げる要件A～Lの全てを備えた音声合成方法です。

A. 入力された文字列に対応する音声メッセージデータを作成する音声合成方法

明細書0002節によれば、「音声メッセージ」とは「人間が話す言葉」のことです。つまり入力された何らかの言葉を、人の声を模した合成音声のデータに変換する方法です。

ここで重要なのは、明細書や図面で人名の音声合成を例としているだけで、権利範囲を人名に限定する記載は一切存在しないことです。

なお、特許請求の範囲に存在する用語の意義は、明細書に基づいて解釈する必要があります（特許法第70条第2項）。用語を自分で勝手に解釈してはなりません。

B. 少なくとも１つの文字を含む文字列（単語）をそのアクセント型とともに多数収録した単語辞書
C. 該単語辞書に収録された文字列に対する韻律情報を表す韻律モデルデータのうちの代表的な韻律モデルデータを収録した韻律辞書
D. 収録音声を合成単位の音声波形データとして収録した波形辞書

音声合成に「単語辞書」「韻律辞書」「波形辞書」の3つを全て利用することが必須要件となっています。これらの辞書がどのように使われるものか、本稿では技術的な詳細は述べませんが、図11のフローチャートが参考になるかもしれません。

また図2には「韻律辞書」の具体例が示されています。繰り返しですが、図面は合成対象が人名である場合を例として取り上げているだけで、権利範囲自体を人名に限定するような文言は、明細書にも図面にも見当たりません。

ともあれ、「単語辞書」「韻律辞書」「波形辞書」のどれか1つでも欠けていれば、本特許の権利範囲外です。例えば隠れマルコフモデル（HMM）を用いた統計的音声合成は、00年代には既に実用されていた技術ですが、本特許に記載された類の単位選択型音声合成とは本質的に異なる手法であるため、本特許には引っかからないものと考えられます。

これも再三ですが、例えば「単語辞書」という言葉の意味についても、特許の請求項や明細書をもとに解釈する必要があります。本特許の権利範囲においては、単純に単語を収録した辞書というだけでは「単語辞書」にはあたりません。「韻律辞書」「波形辞書」も同様です。

E. 入力文字列のアクセント型を決定する
F. 入力文字列とアクセント型に基づいて韻律辞書から韻律モデルデータを選択する
G. 該選択した韻律モデルデータの文字列が入力文字列と一致しない場合は該韻律モデルデータの韻律情報を入力文字列に合わせて変形する
H. 韻律モデルデータに基づいて入力文字列の各文字に対応する波形データを波形辞書から選択する
I. 該選択した波形データ同士を接続する

E～Iは合成音声を作成するための具体的な手順です。個々の技術的な説明は省きますが、E～Iのどれか1つでも欠けていれば、本特許の権利範囲外です。

J. 文字列、モーラ数、アクセント型及び音節情報を含む韻律モデルデータを収録した韻律辞書を用いて入力文字列の音節情報を作成する
K. 韻律辞書中より、入力文字列とモーラ数及びアクセント型が一致する韻律モデルデータを抽出して韻律モデルデータ候補とする
L. 韻律モデルデータ候補のうち、
L-1. その全ての音素が入力文字列の音素と一致する候補があればこれを最適韻律モデルデータとする
L-2. 全ての音素が一致する候補がなければ、韻律モデルデータ候補のうち、入力文字列の音素と一致する音素の数が最大の候補を最適韻律モデルデータとする
L-2-1. 一致する音素の数が最大の候補が複数ある場合は、そのうちの連続して一致する音素の数が最大の候補を最適韻律モデルデータとする

J～Lには、手順F～Gにおいて入力文字列と韻律辞書をもとに音声の抑揚を決定する方法が、より細かく指定されています。上と同じく本稿では詳細な説明は行いません。
これまでと同様に、手順J～Lのどれか１つでも欠けていれば、本特許の権利範囲外です。

EVS特許の権利範囲の要約

以上を要約すると、請求項１で規定された権利範囲は、

「入力した文字列を合成音声に変換する」
「単語辞書、韻律辞書、波形辞書を全て使う」
「文字列のアクセント型の決定→韻律辞書からの韻律モデルデータの選択→韻律モデル情報の適切な変形→波形辞書からの波形データの選択→波形データの接続、という手順を踏む」
「韻律モデル情報の選択において特定の手順に従う」

という要件を全て満たす音声合成方法です（※この説明はあくまで要約であり、厳密ではありません）。

さらに要約すると、「ある特定の手順で音声を合成する方法、装置、およびプログラムを記録した媒体」が、本特許の権利範囲の全てです。

当該手順から一つでも要素が欠けていれば、たとえプレイヤー名の音声を合成したとしても、本特許の権利範囲外です。

そして既述の通り、当該「音声メッセージ」が人名に限定されるような記述は、特許請求の範囲にも明細書にもまったく存在しません。この合成方法に沿った手順で、人名以外の音声を合成することも可能です（※やる意味があるかどうかは別の話です）。

表に整理するとこのようになります。

結論

特許請求の範囲に記載された特定の手順以外の方法で人名の音声を合成すれば、EVS特許に引っかかることなくプレイヤーの名前を呼ぶことができました。EVS特許は、「名前を呼んでくれるゲームシステムを独占する特許」ではありません。

主要参考文献

（編）特許庁総務部総務課制度審議室「工業所有権法（産業財産権法）逐条解説〔第22版〕」（2022）
コナミ「音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体」、日本国特許第3361291号公報（2002）
森山和道「合成音声の音声合成なのだ」（1999）
今枝真一「ゲーム分野における特許権」（2006）
生田哲郎、森本晋「特許権侵害訴訟において、特許請求の範囲の記載の文言が一義的に明確であるか否かを問わず、発明の詳細な説明等の記載を考慮して特許請求の範囲の解釈を行うべきであるとした事例」（2007）

・コナミのいわゆる「壁透過カメラ特許」は、壁透過カメラを独占できる特許ではない。

・「コナミは様々な名称の独占を目論んだ商標ゴロ」なる悪評は、根拠とされたものの多くが憶測やデマ。

・「コナミはプロ野球選手の実名利用を独占した」なる悪評はデマ。

・「BEMANI特許はオブジェが上から降ってくる音ゲーの特許」は誤り。
・「BEMANI特許はキー音の特許」も不正確。

・「『音ゲー』はセガの登録商標」はデマ。

付録：本件に関するQ&A

Q1. 特許第3674808号がEVS特許なのでは？
A1. いいえ、EVS特許ではありません。特許第3674808号の権利範囲は、概要としては「入力した文字列の一文字一文字に対してのパラメータ（ピッチや速度等）を手動で設定するための特定の機能を持つGUIを提供し、そのパラメータに基づいて音声を合成する」技術です（※この説明はあくまで概要であり、正確ではありません）。名前を入力するだけで自動的に適切な抑揚を判断してくれるEVSより以前に公開された技術です。また、プレイヤーの名前を呼ぶゲームシステムを独占できる記載は存在しません。

Q2. 特許第3252896号がEVS特許なのでは？
A2. いいえ、EVS特許ではありません。特許第3252896号の権利範囲は、概要としては「設定したキャラクター名の音声を合成する際、最後の一文字の発音にディレイをかける」技術です（※この説明はあくまで概要であり、正確ではありません）。プレイヤーの名前を呼ぶゲームシステムを独占できる記載は存在しません。

Q3. 特開2001-034282号がEVS特許なのでは？
A3. いいえ、EVS特許ではありません。本出願は2002年9月10日付けで拒絶査定が下り、その後の査定不服審判の請求も不成立となったため、特許として成立していません。なお、「特開～」という番号が振られた「公開特許公報」と呼ばれる公報は、出願時点での（特許庁が権利化を認める前の）文書がそのまま公開されたものです。実際の権利範囲の判断に、公開特許公報を用いることはできません。

Q4. 当時のハードウェアの制約を考えると、名前を読み上げるような自然な発音での音声合成を実現するには、EVS特許が指定する方法を回避できなかったのでは？
A4. 権利範囲の構成要素A～Lのうち一要素たりとも技術的な回避が不可能であったという主張について、筆者調査の限りでそのような当事者の証言は見当たりませんでした。もっとも、筆者自身はソフトウェア技術者でもサウンドエンジニアでもなく、確実な回答は持ち合わせておりません。EVS特許が有効であった時代（2002～2017年）の開発者による証言を期待いたします。