見出し画像

単語概念知識データベースとは vol.2

こんにちは。言語理解研究所(以下、ILU)開発本部 知識辞書開発部の吉田です。
単語概念知識データベースとは vol.1」に引き続き、今回の記事も『単語概念知識データベース』についてお伝えします。

前回記事の振り返り

私たちが日常生活で話したり、書いたりした文や言葉を『自然文』といいます。この『自然文』の意味を理解するにはまず、文を構成する単語の知識が必要です。
 
ILUでは、この単語の知識を『単語概念知識データベース』(以下、データベースシステム)に登録しています。
データベースシステムに登録された知識には、単語自身の持つ表記や読み、品詞などの『単語知識』に加えて、『他単語との意味的関係に基づいた関係づけの情報』があります。

前回記事「単語概念知識データベースとは vol.1」では、単語自身の持つ表記や読み、品詞などの『単語知識』についてお伝えしました。
今回は、『他単語との意味的関係に基づいた関係づけの情報』についてお伝えします。


『他単語との意味的関係に基づいた関係づけの情報』とは

こちらは実際の『単語概念知識データベース』の画面です。
赤枠で囲んだ部分が、今回お伝えする関係づけの情報です。

(注意)業務上公表できないデータを含むため、一部項目をマスクしています。

『他単語との意味的関係に基づいた関係づけの情報』(以下、『単語の関係づけ情報』)とは、単語と単語の関係を見る際、その意味や用途、表記文字種や読み(発音)に着目して関係づけを行うリンク情報のことです。

意味が近い関係から順に、項目『揺れ』、『同義語』・『正規語』、『類義語(意味的類似語)』、『関連語』の5つに分類しています。
それぞれの項目と概要、その用途を以下に記載しました。

●項目『揺れ』
同じ意味を持つ単語のうち、漢字やカタカナなど文字の種類が違ったり、読み(発音)が似ている単語を関係づけする項目を『揺れ』といいます。

『揺れ』で関係づけした単語は、文章中の単語と置き換えが可能で、複合語の一部でも置き換えが可能です。

そのためILUではこの特性を活かし、複合語パーツ単語(複合語を構成する単語)に設定された揺れ情報を元に自動的に単語を増やしています。

例えば、英語「bag」の正しい発音は「バッグ」ですが、ネット上では「バック」と書かれているものも多く見かけます。そしてバッグ自体も「トートバッグ」、「ハンドバッグ」、「エコバッグ」、「ゴルフバッグ」、「キャリーバッグ」など、いろいろな種類があります。

もちろん、正しい発音の「〇〇バッグ」と共に、間違った発音の「〇〇バック」をデータベースシステムに登録して、両者を『揺れ』で関係づけしても良いのですが、手間がかかります。
そこで、単語の複合語情報と揺れ情報を用いて表記を自動生成することで、登録と関係づけ作業の手間を省きます。

『揺れ』を用いた表記自動生成イメージ図

●項目『同義語』
同じ意味を持つ単語のうち、状況によって使い分けたり、読み(発音)が異なる単語を関係づけする項目を『同義語』といいます。

同義語で関係づけした単語は、文章中の単語の置き換えは可能ですが、複合語の一部として使用されている場合は置き換えできません。

●項目『正規語』
こちらの会話を聞いて、すぐに意味が理解できる方はいらっしゃいますか?
「昨日、あの患者さんデコったんだけど」
「え、大丈夫だった?」
もちろん!とおっしゃった方は、ある分野に造詣の深い方だとお見受けします。
 
実は「デコる」、「デコった」という言葉は、使用する場面によって異なる意味を持ちます。
私たちが日常生活で用いる「デコる」は、「デコレーションする」を省略した言い方ですが、ヘルスケア分野で「デコる」と言った場合、「心不全に陥る」状態を指します。

このように、専門的な知識の元では別の意味を持つ単語や略称、俗称などを『別名』、一般用語でその意味を表した単語を『正規語』といい、それらを関係づける項目を『正規語』といいます。
どのような場面で使われるかは、業種別に設定する34種の『別名タイプ』で分かるようになっています。例にあげた「デコる」も、それぞれの意味に応じた別名タイプが設定されています。

(注)別名「デコる」は、説明のためラ行五段語幹「デコ」+活用語尾「る」で記載しています。

●項目『名称変更』
地名や企業名などが名称変更した際、古い名称と新しい名称を関係づける項目を『名称変更』リンクといいます。

(注)国名「グルジア」は、2015年4月「ジョージア」に変更されました。

●項目『類義語』
『概念』と呼ばれる、単語を抽象化して認識するためのラベルが同じ単語をグループ化したり、意味が似た単語をグループ化したりする項目を『類義語』リンクといいます。

同じ『概念』をもつ単語をグループ化してできた類義語は『概念知識』と呼ばれ、『意味共起知識データベース』に参照されて、共起ルール(文中に同時に出現する意味的つながりの強い単語の関係を構造化したデータのこと)の記述に用いられます。

項目『関連語』
意味的につながりがなくても、何らかの関係性がある単語を関係づけする項目を『関連語』リンクといいます。

芸能グループ名とその所属メンバー名、企業名とその企業が販売する商品・提供サービス名、学校名とその関連校などを関係づけします。
どの観点から関連付けしたのかは、16種の『関連語タイプ』で分かるようになっています。

『単語概念知識データベース』の用途

『単語の関係づけ情報』から『辞書』を作る

『単語知識』から辞書を作るように、『単語の関係づけ情報』からも辞書を作っています。
『単語の関係づけ情報』から作る辞書は『同義語辞書』といい、同じ意味を持つ複数の単語をひとつのグループにまとめた知識データの集合体です。

『同義語辞書』は、『揺れ』、『同義語』、『正規語』で関係づけた単語を、ひとつのグループにまとめることで作成します。その際、対象グループの単語表記全てを統一した表記『代表語』を決定します。
同じ意味を持つ複数の単語をひとつの表記に統一することを正規化処理といいますが、『代表語』はこの正規化処理における統一表記として用いられます。

これまでの説明に使った例を用いて、どのような同義語辞書ができるか見てみましょう。

『同義語辞書』の用途

では『同義語辞書』は、どのような場面で用いられるのでしょうか。
ILUの開発製品における同義語辞書の用いられ方を記載しました。

●用途その1
ILUの開発した検索エンジン「ABスクエアサーチ」では、入力欄でユーザが入力したキーワード(検索クエリ)に対して、同義語辞書を用いることで検索対象の語彙を広げています。

例えばみなさんは、ファーストリテイリングの株価を調べるために、「ファストリ 株価」と入力したのに、「ファーストリテイリング」という単語まで含んで結果が表示されたことはありませんか。
この「ファストリ」と「ファーストリテイリング」が同じ意味の単語であると特定する根拠が、同義語辞書です。

●用途その2
SNS投稿などのテキストデータを分析するマイニングシステム「ABスクエア」において、キーワードの正規化に用いられます。
ABスクエアでは、テキストデータから感情を含む箇所と感情が向く対象(エモワード)を抽出できますが、このエモワードは同じ意味でも表記の異なる場合があります。

例えば、「徳島空港はきれいで快適」と「徳島阿波おどり空港はきれいで快適」という文は同じことを表していますが、「きれい」や「快適」の対象は「徳島空港」、「徳島阿波おどり空港」と別の表記になっています。
このような異なる表記の「徳島空港」、「徳島阿波おどり空港」を正規化し、同一視することでひとつのエモワードにまとめることができます。
エモワードがひとつになることで、分析対象の正確な集計が可能になります。

●用途その3
生成AIに関係した用途としては、ILUの「データ構造化ソリューション」において、キーワード(全文)検索を行った際の検索クエリの拡張や、表記の正規化に同義語辞書を用いてRAG(Retrieval-Augmented Generation)の回答精度を向上させることが考えられます。
詳しくは「言語理解研究所の日本語DX データ構造化ソリューションによるRAG精度向上 vol.2」の記事をご覧ください!


ただしどの用途でも、複数の意味が考えられる表記をそのまま同義語辞書に含めてしまうと、意味の違う単語に正規化されるなど不自然な結果を招く可能性があります。
そのためILUでは、同表記異義語が悪影響を及ぼさないような処理を加えた辞書作成を行っています。

例えば、表記「アップル」には企業の意味と果物の意味が考えられます。
データベースシステムでは意味を元に単語を関係づけるので、企業の意味の「アップル」は「Apple」と揺れになり、果物の意味の「アップル」は「りんご」の同義語になっています。

しかし、正規化処理などに用いる同義語辞書に、果物の意味の「アップル」を含めてしまうと「アップル イヤホン」と検索したときに、「りんご イヤホン」という結果が出てくる可能性があります。
そこで「りんご」のグループから「アップル」を削除した同義語辞書にすることで、間違いを防ぎます。(ちなみに名前として用いられる「リンゴ」も同義語辞書から削除されています)

おわりに

『単語概念知識データベース』が生まれて、約20年が経ちます。
人が生まれて20歳を迎えるのと同じ期間、稼働しているデータベースシステムです。中には「やばい」のように登録時から意味を変えた単語もあり、言葉の歴史を物語る内容になっています。

私たち知識辞書開発部は、今後も単語や知識を登録し、ILUの「データ構造化ソリューション」を支える基盤としての辞書を構築し続けます。

次回は、『大規模言語データベース(LLD)』を構成するデータベースシステムのひとつ、『意味共起知識データベース』について解説する予定です。
文章に直接表れない意図や感情をコンピュータ上で扱うためには、どのように知識を登録するのか。どうぞお楽しみに!