![見出し画像](https://assets.st-note.com/production/uploads/images/68590132/rectangle_large_type_2_cb24757ce7f5a0fd21f4351054d4df99.png?width=1200)
【校閲ダヨリ】 vol.63 僕の夏休みの自由研究②(計量言語学の手法)※やや難
みなさまおつかれさまです。
夏休みの自由研究としておきながら、すっかり新学期、涼しい季節になってしまいました。
とはいえ私は自分に課した課題を終えなければなりません。
今回から、いよいよ計量語彙論の具体的な手法に関してまとめていきます。
さて、前回お話しした通り、計量言語学は「データを集めるところからスタート」する学問であります。
……しかし、ある程度ターゲットを絞る必要はあります。
たとえば、「近代文学の文体的特徴」を調べたいと思えば対象は近代文学のみでよいですし、「若者言葉の特徴」であれば若者言葉のデータがあれば良い。
ありとあらゆるデータを調べていたらいつまで経っても終わらないということになりますので、「やりたいことは明確に」しましょう。
ここが前提です。
次は、下ごしらえです。
「言葉を数える」とは、「単語を数える」こと。
単語数=文字数 ではないことはここまで当お便りにお付き合いくださっているみなさまであれば、容易に推察できることと思われます。
単語を数えるということですが、これが一見簡単そうに見えて意外と考えねばならないことがたくさんあるんです。
下ごしらえ①〈対象の範囲の決定〉
収集したい情報に沿った言葉を測定するために、対象となる言葉の範囲を明確にする必要があります。
【Point】
専門用語、固有名詞、外国語/外来語、数詞、記号 → これらを必要に応じて収集するかどうか決めます。
下ごしらえ②〈基準・プロセスの確立〉
こちらは、「どのようなものさしを使うか」という話です。ざっくり、4つの観点の扱いを決定します。
(1)語の長さ(単純語、複合語、連語)
・国立国語研究所 → 1語
・国立|国語研究所 → 2語
・国立|国語|研究所 → 3語
・国立|国語|研究|所 → 4語
同じ「国立国語研究所」という言葉でも、基準を決めておかないと単語数に幅ができてしまうことになり、データの精度が下がってしまいます。
また、
・気になる
・気が散る
・気を取り直す
のような連語や慣用句を1語とみなすかどうかも、設定する必要があります。
これらは、「語の境界を決める」ことを意味し、境界が決まることで「延べ語数」が確定することになります。
(2)語形/表記
❶むずかしい/むつかしい
❷インク/インキ
❸付属/附属
❹機転/気転
❶・❷のような「語形のゆれ・種類」や、❸・❹のような「表記の異なり」の扱いをどうするか設定します。
(3)活用
・上がる/上がり/上がれ → 同じ語として扱ったほうがよい
・近く(形容詞の連用形)/「近くに人がいる」の近くは名詞 → 別語として扱う必要がある
・良く(形容詞の連用形)/「よくあること」のよくは副詞 → 別語として扱う必要がある
・「いい走り(名詞)だ」、「彼は飛び込み(名詞)の選手だ」のように動詞の連用形と名詞が同じ形の場合もある
上記のように、語数は活用のとらえ方によって変動します。
(4)意味(多義語か同音異義語か)
・こつ(をつかむ)/骨(こつ)
・とる(取る、捕る、執る、採る、撮る、録る)
・ソフト(やわらかいの意味、ソフトクリームの意味、ソフトウェアの意味)
上記のように、意味の違いによっても語数が変動するので、設定の際には気を配る必要があります。
(2)〜(4)を設定することで、「異なり語数」が確定します。
ここまでが、下ごしらえです。
カレーを作るときには下ごしらえが大変ですが、計量言語学も同じです。
昔は、この設定を決め、データを集めるのがそれは本当に大変でしたが、現代では「MeCab」「UniDic」といった形態素解析ツールや電子化辞書を使うことで、一瞬で済んでしまいます。
効率性も高まりましたが、重要なのは「再現性」が高まったこと。別の人が検証することも容易になったことで、研究としての精度がクッと上がりました。
先ほど登場した「延べ語数」「異なり語数」ですが、少し解説しておきましょう。
・延べ語数:同じ単語の重複を気にせず、全体として何語あるかカウントした語数のこと。
ある本の中で「考える」という言葉が1000回出てきたら、1000とカウントします。
・異なり語数:同じ単語の重複を排除し、1語としてカウントした語数のこと。
ある本の中で「考える」という言葉が1000回出てきても、1とカウントします。
延べ語数が増えれば、異なり語数も増える傾向がありますが、文章が変われば用いられる語も変わるので、その関係は一定ではありません。
延べ語数と異なり語数を分析することで、「語彙の豊富さ」を指標として表すことができます。
以下は、その一例です。
・TTR(Type/Token Ratio):V/N(異なり語数を延べ語数で割る)
・Guiraud's R:V/√N
・Herdan's C:logV/logN
この数値が高い文章は、「語彙が豊かだ」といえるようです。
作文の指導で生かせそうですね。
さて、少し難しい話が続きますので、今回は具体的な進め方はこのあたりで終わりにしましょう。
最後に、計量語彙論の語彙調査の歴史について少しだけ触れておきたいと思います。
語彙調査は、国語に関する総合的研究機関として、1948年に創設された国立国語研究所が先導しています。
私などにとってはひとつの「憧れの職場」なのですが、一般の方にとってはほとんど馴染みがない研究機関でしょうか。
松本清張による不朽の名作『砂の器』(私はやはり1974年版が好きですね。丹波哲郎・森田健作・加藤剛の名演もさることながら、構図や音楽も最高です)では、素晴らしい活躍をします。映画ではそれぞれの時代で実際の場所がロケ地になっているようなので、気になった方はぜひご覧ください。
脱線してしまいました。
語彙調査は、国立国語研究所が1940年代後半から2000年代前半にかけて11回以上実施しています。
中でも評価が高いのが、1956年から1964年に行われた「現代雑誌九十種の用語用字」調査です。この調査では、手作業で延べ語数・53万語、異なり語数・4万語を収集したそうです。データは、雑誌ジャンルごとに使用率が算出されている特徴もあります。
なんといっても手作業なので、8年の時間がかかっています。
2000年代後半からはいよいよデジタルの恩恵を受け、「コーパス」というデジタル検索ツールで簡単に調べられるようになっていきます。
次回は、コーパスの話から再開することにいたしましょう。
このテーマで始めてしまったものの、いつまで続くことになるやら……。
『砂の器』ばりの長編に、ご期待ください。
それでは、また次回。
参考文献
『日本語学大辞典』(東京堂出版)
『日本語文法事典』(大修館書店)
『講義「ことばを数える―計量語彙論の世界―」』(山崎誠、国立国語研究所)
#校閲ダヨリ #校閲 #校正 #出版 #雑誌 #本 #書籍 #エディトリアル #日本語 #言語 #言葉 #国語学 #文法 #proofreading #magazine #book #publishing #create #editorial #language #peacs