語の数えかた

「私の語彙は約○○語です」というときの語の数えかたと
「この小説は約○○語です」というときの数えかたは違う。

「数えかた」を分かつ要素はふたつある。

・重複を許すか
・単語をまとめるか(そしてどこまでまとめるか)

今のところメジャーな数えかたというのが4つあるので、特徴をみていこう。

Tokens (とーくん)

単純に語数をカウントする方法。running words とも呼ばれる。

例文: I read a book but I am not reading the book.

例では、全部で11語 (I, read, a, book, but, I, am, not, reading, the, book) となる。

Tokens は被っている語も気にしないでそれぞれ数える。

「この小説は約○○語です」というときは、大抵は小説のボリュームを知りたいのだから Token をつかう。

あとは wpm (words per minute) を測定するとき。つまり「どれだけ速く聞き取れるか」だとか「どれだけ速く読めるか」など。

Types (たいぷ)

一方でこちらは重複を許さない方法。

例文: I read a book but I am not reading the book.

"I" と "book" が重複しているので全部で9語 (I, read, a, book, but, am, not, reading, the) となる。

「この小説は約○○語、使われています」というときは、語の種類数を知りたいので Type をつかう。

Lemmas (れま・れんま)

辞書なんかはこのパターンで、重複を許さず、かつ、語形変化(過去形や-ing形、三単現のsなど)をまとめて数える。たとえば write と wrote は同じ語として1つと数える。

例文: I read a book but I am not reading the book.

"read" と "reading" は同じ語と考えて、全部で8語 (I, read, a, book, but, am, not, the) となる。

アメリカ英語とイギリス英語とが混在するような場合、同じものを指していても語形がちがう場合がある。color と coulor とか。これもまとめる。

「私の語彙は○○語です」というとき、like と likes を両方とも知っているから2語と数えるのは少々ズルい。Lemma を使うのが妥当だろう。

Word families (わーどふぁみりー)

Lemmas を拡張して、さらに派生語までまとめちゃおうぜ。というのがこれ。

use の例でいくと後ろに -al がついて usual さらに -ly がついて usually。あるいは前に re- がついて reuse などなど、これらをひっくるめて1語と数える。

一般にはあまり聞かないけれど、こと語彙学習という分野に限れば「この括りかたが効果的な学習によさげだ」ということで、注目されている、はず。

ドレマトメンノ問題

Tokens と Types は機械的に数えていけば良いだけのシンプルな代物なので、誰がやっても同じ結果が出る。

だけども Lemmas と Word families は、どこまでまとめるべきか(あるいは、まとめるべきでないか)数えるひとによって判断が別れる。

判断が別れるポイントで面白いとおもったのは「同じ語形で品詞が違う場合どうすんの」という問題。例えば、 book は名詞にも動詞にもなるけど、これって同じ語でいいんですか、と。

また、品詞が同じでも、たまたま同じ語形になってしまったケースもあるだろう。

混沌である。

最後に

この記事は言語学者 Paul Nation 氏の著書 Learning Vocabulary in Another Language (p.9) を参考にした。この本は近年の語彙学習研究を体系的にまとめた大著だ。数々の関連文献が紹介されているので、本稿についてより詳しく知りたい方は、こちらを参考にされたい。

この記事が気に入ったらサポートをしてみませんか?