見出し画像

おしゃべりな 人工知能講座⑭

目次はこちら

■コンピューターに言葉を教えるには

天馬「では次に、0と1の2進数しか扱えないコンピューターが、自然言語をどのように処理しているか、具体的に説明しよう」

画像1

天馬「愛さん、文字コードは知っているね」
愛さん「はい。シフトJISとかユニコードとかいろいろありますね」
天馬「そうだ、どの文字コードも、原則として1文字というか1キャラクターに、1バイトか2バイトの数値を割り振っている。アルファベットは文字種が少ないから1バイトで済むが、日本語や中国語のように漢字圏は数万種類もの漢字があるから、世界共通の2バイトコード・ユニコードを決める時は大変だったんだ。だがまあ、多いといっても数万種類だ。では文章をコンピューターで同じかどうか比較しようとすると、どうすればいいかな?伴くん。例えば」

 A:敷島は、時々暴走する猿田のパソコンを借りてしまった。
 B:時々暴走するパソコンを、敷島は猿田から借りてしまった。

伴くん「え~と、まず使われている言葉と、その順番を調べるしかなさそうですね。どちらも同じ言葉だけを使っているから同じになるかな。でも言葉の順番は違うから、違う文章と判定しそうですね」
愛さん「英語でも単語と文法を教わりますね。コンピューターに日本語の文法を教えないと意味は比較できないですね」
伴くん「しかもこの例題だと、Aの『時々暴走する』のが『猿田』なら、Bと意味が異なりますね」
猿田くん「ひどい例題だな。Aも『時々暴走するパソコン』なら同じだ」
天馬「いやいやコンピューターは、入力された文字コードを1文字ずつ順番に表示しているだけだ。伴くんの言った『使われている言葉』とはどれだね?」
伴くん「え?『敷島』、『時々』『暴走』みたいな文字の集まりですが」
天馬「日本人なら、日本語の単語は自明だから簡単に切り出せる。しかし日本語が読めない外国人の場合だと、
『すもももももももももももにもいろいろある』
から単語だけを切り出せないだろう」
猿田くん「日本人でも分からない人がいますよ、先生。これ『も』が1文字足りません」
愛さん「あれ?本当ですね。
『すももも、もも、ももも、もも、ももにもいろいろある』
ですよ」

画像2

天馬「うむ、そうか。しかし英語だと英語の文章が読めなくても単語は簡単にわかるだろう。『I am a CAT.』のように単語間はスペースで区切られているからだ。しかし日本語の文章には単語間に区切りがない。だから単語と文法を理解すればよい、という以前の問題になる。自然言語処理の第1歩は単語の切り出しだ。この処理を『形態素解析』と呼んでいる」
愛さん「天馬先生、『形態素』と『単語』はどう違うのですか?」
天馬「形態素とは、それ以上分解できないものだ。例えば『夏休み』は単語だが、『夏』と『休み』という2つの形態素に分けることができる。そして形態素解析とは、文章を形態素に分解して、さらに名詞や動詞などの品詞を付与する処理のことだ」

画像3

伴くん「どうやって文章を形態素に分割しているのですか?」
天馬「この図のように、単純に助詞や句読点などのような『区切り文字』を利用して分割することができる」
猿田くん「でもそれじゃあ、さっきの『すももももも』だとできませんよ」

画像4

天馬「その通り。しかしこの形態素解析の手法は長年研究されて、現在では非常に優秀なソフトウェアのツールが公開されている。誰でも簡単にできるようになったんだ。最も有名なツールは『MeCab』だ。このMeCabは辞書引きと機械学習を用いることで、高精度な形態素解析を実現している。この『すもも』も上の図のようにキチンと解析してくれる。詳しい原理は避けるが、このような形態素解析エンジンのおかげで、自然言語処理の最初の処理は非常に楽になった」

猿田くん「しかし『MeCab』って、面白い名前ですね」
天馬「なに、このソフトウェアを開発した人の好物が『メカブ』だったからさ。形態素解析ツールには他にChaSen、JUMAN、Janomeなどがあるが、どれも日本語っぽい名前なんだ」
愛さん「では、形態素解析してからどうするのですか?文法を当てはめればよいのですか?」

画像5

天馬「上の図のように、形態素解析ができたら、次は『構文解析』になる。そしてやっと文章の意味解析ができるようになると考えられている」
伴くん「現在では、日本語の文章の意味解析まで、できるようになったのですか?」
天馬「いやいや、話はそんなに簡単ではない。形態素解析でさえ新語の問題など、まだまだ発展途上だ。その次にある構文解析、例えば『係り受け構造解析』になると、言葉の曖昧さに悩まされている」

画像6

天馬「上にある図のように、簡単な文章でさえ①のような解釈と、②のような解釈ができてしまうだろう。先ほど例にあげた『時々暴走する猿田のパソコン』も同じように、この文だけだと暴走するのが『猿田』なのか『パソコン』なのか不明だ」
猿田くん「じゃ結局、構文解析もできてないんですか?」
天馬「そうは言っていない。形態素解析ツールがあるように、係り受け解析ツールもある。ただ高精度だとはいえないのだ。先ほどの図にあるように、形態素解析→構文解析→意味解析といくにしたがって、精度が悪くなってしまい、まだまだ実用的ではないのが実態だ」
愛さん「そうなんですか?スマートスピーカーなんかだと、こちらの言葉をかなり正確に解釈して回答してくれてますし、機械翻訳も実用的なレベルに近づいたと思いますが」
天馬「近年、自然言語処理が急速に進展したのも事実だ。今まで話してきた昔ながらの研究手法は、遅々として進まなかったが、そこにまったく新しい考え方が登場したんだ」
伴くん「なるほど。それがニューラルネットワークですね」
天馬「そうなんだが、そこにいく前に英語圏でのアプローチ方法から先に話そう」

次は「コンピューターが言葉を使えた:統計的言語モデル」

いいなと思ったら応援しよう!