語の数えかた
「私の語彙は約○○語です」というときの語の数えかたと
「この小説は約○○語です」というときの数えかたは違う。
「数えかた」を分かつ要素はふたつある。
・重複を許すか
・単語をまとめるか(そしてどこまでまとめるか)
今のところメジャーな数えかたというのが4つあるので、特徴をみていこう。
Tokens (とーくん)
単純に語数をカウントする方法。running words とも呼ばれる。
例文: I read a book but I am not reading the book.
例では、全部で11語 (I, read, a, book, but, I, am, not, reading, the, book) となる。
Tokens は被っている語も気にしないでそれぞれ数える。
「この小説は約○○語です」というときは、大抵は小説のボリュームを知りたいのだから Token をつかう。
あとは wpm (words per minute) を測定するとき。つまり「どれだけ速く聞き取れるか」だとか「どれだけ速く読めるか」など。
Types (たいぷ)
一方でこちらは重複を許さない方法。
例文: I read a book but I am not reading the book.
"I" と "book" が重複しているので全部で9語 (I, read, a, book, but, am, not, reading, the) となる。
「この小説は約○○語、使われています」というときは、語の種類数を知りたいので Type をつかう。
Lemmas (れま・れんま)
辞書なんかはこのパターンで、重複を許さず、かつ、語形変化(過去形や-ing形、三単現のsなど)をまとめて数える。たとえば write と wrote は同じ語として1つと数える。
例文: I read a book but I am not reading the book.
"read" と "reading" は同じ語と考えて、全部で8語 (I, read, a, book, but, am, not, the) となる。
アメリカ英語とイギリス英語とが混在するような場合、同じものを指していても語形がちがう場合がある。color と coulor とか。これもまとめる。
「私の語彙は○○語です」というとき、like と likes を両方とも知っているから2語と数えるのは少々ズルい。Lemma を使うのが妥当だろう。
Word families (わーどふぁみりー)
Lemmas を拡張して、さらに派生語までまとめちゃおうぜ。というのがこれ。
use の例でいくと後ろに -al がついて usual さらに -ly がついて usually。あるいは前に re- がついて reuse などなど、これらをひっくるめて1語と数える。
一般にはあまり聞かないけれど、こと語彙学習という分野に限れば「この括りかたが効果的な学習によさげだ」ということで、注目されている、はず。
ドレマトメンノ問題
Tokens と Types は機械的に数えていけば良いだけのシンプルな代物なので、誰がやっても同じ結果が出る。
だけども Lemmas と Word families は、どこまでまとめるべきか(あるいは、まとめるべきでないか)数えるひとによって判断が別れる。
判断が別れるポイントで面白いとおもったのは「同じ語形で品詞が違う場合どうすんの」という問題。例えば、 book は名詞にも動詞にもなるけど、これって同じ語でいいんですか、と。
また、品詞が同じでも、たまたま同じ語形になってしまったケースもあるだろう。
混沌である。
最後に
この記事は言語学者 Paul Nation 氏の著書 Learning Vocabulary in Another Language (p.9) を参考にした。この本は近年の語彙学習研究を体系的にまとめた大著だ。数々の関連文献が紹介されているので、本稿についてより詳しく知りたい方は、こちらを参考にされたい。
この記事が気に入ったらサポートをしてみませんか?