音声辞書開発日記(再編集版)

2021年12月3日 03:45

本記事は別アカウントで以前公開していた記事を再編集したものです。
3本の記事を1本にまとめたために少し長文となっています。

聴くことの重要性

文字に意味がある?

日本人の多くは言葉の意味は文字にくっついていると潜在的に感じています。しかし、その思い込みが外国語の習得にはとても邪魔になっています。

日本人は小学教育から日本語には音読みと訓読みがあることが教えられます。音読みは漢音から来ているので、いわば外国語の音を日本人向けにアレンジして取り込んでいると言えます。音読みは日本人にとっては単なる無機的むきてきな音の羅列に近いために、音読み語を聴いたときに、一瞬だけ漢字(表記)を頭の中で再現して意味を解釈していることが意外に多いと考えられます。

✔ 訓読み語を聴いた時 → 文字に頼らずに音だけで瞬時に意味解釈している
✔ 音読み語を聴いた時 → 音＋文字に頼って意味解釈している
👉 「カイカン」という音とを聴いた時に、文脈から「会館」「開館」「快感」かを判別する必要がある
(= 脳の労力を少し多く使っている＆文字に頼っている)
ということです。

音節の重要性

音節(syllable)とは、ざっくり言うと、母音とその前後にくっついている子音をまとめた音声の単位です。ある言語を使いこなすためには、音節の聴き分けはとても重要です。そのような用語は知らなくとも、母国語はそのように習得しているはずです。

言葉の構造の基本は音声の集合体であるため、原則としてすべての語は音の関連性を持っている。別の言い方で言えば、新しい語(概念)は、ある語の音節変化(とそれらの連結)を契機とするので、基本音節語(木の幹みきのイメージ)から音節的に派生した語(枝分かれした葉っぱのイメージ)の集合体である。

中国語 bao と pao を例とした関連図を以下に示す。

これは、数年前中国語学習を始めた頃に筆者(LangDicLab)が自分で推測して作成した図です。(どこかの本から引用したものではありません。よって、定説とは違うかもしれません。) この図では、bǎo(宝,保)→bāo(包) をベースに、他の bāo(剥,煲) báo(薄) bào(暴,爆,曝,报)などの新語が生まれたと推測できることを示しています。ざっくり言うと、言語とはこのような派生の積み重ねと言えます。

日本語は他のメジャーな言語と比較すると使用する音節の種類が少ないほうだと思われます。(人類の早い時期の発音体系からの変化が比較的に少ないと考えられる。)そもそも手持ちの音節の種類が少ないので、外国語の音節の聴き分けに苦労します。その点をまず念頭に対応策を考えるのが正攻法と言えるでしょう。

意味より先にまず発音を確認

意味がわからない単語を見た時に辞書やGoogle検索で意味を確認しようとする人は多いが、そもそも、その単語の読み方(発音)をちゃんと分かっているか? ということを重視する必要があります。

読み方が曖昧なまま意味を確認しても、それは文字表記と文字表記された意味のペアを確認しているに過ぎない。それは、「壬申の乱 → 西暦672年に起こった内乱のこと」のような確認作業を単語1件あたり毎回していることに似ている。そのような作業をずっと(数万回以上)繰り返すのは効率悪いと誰もが思うでしょう。

外国語学習の中心に「音節の体系を記憶に定着させることにより、発音を聴いただけで意味は後から付いて思い浮かぶ」という状態を作りたいわけです。そのために、意味がわかない単語に出会った時に、即座にその正確な発音を確認できることが有効となります。(そのための、音声辞書です)

dictation できているのか?

語学においてdictationは学習効果が高いですが、やり方で効果に雲泥のうんでいのさ差が出ると思います。たとえば、単に特定の音声ファイルを再生して文字起こしするだけでは、dictationの核心である「音節の聴き分け」が本当にできているかは疑問です。

それは、ほとんど場合、どんな例文が収録されているか分かっている音源を反復再生していることが多いからです。実社会では思わぬタイミングの発声を聴き分けることが求められます。

パソコンやスマホを使えば、アプリやネットサービスなどでランダムな音声を発声させてdictationできるものもありますが、合成音声であったりなど音質や発音に問題がある場合もあるようです。ソフトウェア(プログラム)を使えば、手持ちの音源のランダム再生に道が開けます。

学習書の付録音源は価値が高い

出版社の学習参考書に付いている付録の例文音声はとても貴重です。
✔ まとまった量とそれなりの品質が保証されている
✔ 学習参考書のテーマに沿って体系的である

特に独学・自習では学習の生命線になる材料です。無料の音声データをネットから集めようとしても、結果的に時間と労力を浪費することになりやすいです。

では、なぜ出版社(および、関連する組織・機関)は利便性の高い検索ソフトとセットで音源を販売(または、提供)しないのでしょうか? その理由は以下が考えられます。

収録音源に対する検索手段を提供する場合は、通常、書籍本文の例文(テキスト)を音声と紐付ける作業が生じる(音声インデックスの作成が必要)
検索ソフトを提供した場合、検索ソフト＋音源だけで学習できるため、検索ソフトをネットに不正に公開されるリスクがある(テキスト・音源の著作権侵害リスク)

上記のため、学習参考書付録の音声は価値が非常に高いのに、パソコンで有効利用されていないという事象が起きています。

紙の本 vs アプリ

紙の本のメリットとデメリット

紙の本のメリットももちろんあります。
✔ 電気を使用しない。(過去の遺産をそのまま使える)
✔ 頁に気軽にメモしたり、注釈を書き込んだりできる
などなど。

しかし、パソコン・スマホユーザの視点では、いわゆる「検索」ができないため圧倒的に不便です。扱う本が2～3冊なら手動で対応できても、たとえば、1万件の例文から目的の例文を抽出するのは至難の技です。

アプリのメリットとデメリット

パソコン・スマホにインストールされているいわゆる「アプリ」は非常に便利であり、現在ではスタンダードなモノ・商品として多く流通しています。スマホなどの場合、人によっては100以上のアプリをインストールしている場合もあるようです。

そんな便利な「アプリ」の落とし穴は、

アプリ毎にそのアプリ特有の使い方を覚える必要がある
無料アプリの場合、使い勝手が急に変わったり、サービスが急遽終わったりすることがある
特にスマホ向けアプリは、初心者向けに分かりやすいUIが採用されることが多いので、使い込むほど(上級者になるほど)操作や表示が煩わしくなることが多い

ということがよくあります。
LangDicLabの解決策としては、「シンプルなアプリ(プログラム)を利用して、自分流にカスタマイズしながら使う」をお薦めします。

スマホではなくPC作業が良い?

パソコンモニタのほうが、一般的に視認できる情報量が多いです。(電車内など)すきま時間にちょっと確認するにはスマホは便利ですが、時間を作って机で作業するほうが学習効果としては高いと思います。

スマホよりパソコンのほうが学習向きな点
✔ パソコン環境の場合、複数アプリを見ながらの作業に向いている
👉 アプリAの出力を見ながら、アプリBに入力するという行為がしやすい
✔ パソコン環境の場合、モニタを追加したりしやすい(拡張性)
✔ スマホの場合、さまざまな通知や着信など割り込みが多い

音声辞書があれば良い

語学学習でまず重要なことは音声(音節)の聴き分けができるということ。そのために必要なのは適切な発音の例文などを多く聴き、聴き分ける練習を重ねることです。聴き分け(リスニング)の練習教材に必要な音源としては、一般的に学習参考書などの付録CDやmp3音源がよく使われると思われます。

上記の学習参考書付録の例文音声を聴く方法としては、多くの場合、
✔ 特定の音源を選んでプレーヤーを操作(再生・一時停止)しながら聴く。
✔ 1音源ファイル(mp3など)を最初から最後まで再生する。
の2通りではないでしょうか?
上記の方法でももちろん効果はありますが、パソコン利用という観点で言うと、ものすごく不便で有効利用されているとは言い難いと思います。

本記事では、手持ちの音源(mp3など)を有効利用して語学学習の効果を高める方法について書きたいと思います。その中心として「音声辞書」を念頭に置いています。ここでいう「音声辞書」とは、文字入力により任意にんいの区間音声くかんおんせいを抽出するプログラムを示しています。

音声辞書の要件

語学学習の効果を高めるためにLangDicLabが考えること

文字を入力またはコピー＆ペースト操作で、例文(単語・フレーズ・文)を引くことができる
上記例文に音声インデックスをもたせることで、例文を即座に音声再生させることを可能とする

使い方としては、与えるアプリではなく、個人が好きなようにカスタマイズできる育てるアプリを考える。ユーザ自身が音声プレイヤーを音声辞書プレイヤーに育てるのである。データを追加して辞書を育てる作業はAnki やQuizlet で単語を追加する操作と似ている。

区間再生くかんさいせい(区間リピート、ABリピート)できるプレイヤーは多くあるが、事前に登録した区間リピート位置(= 音声インデックス)を検索できるソフトは一般的には利用されていない。

音声辞書の実装(実現方法)

自分が聴きたい音声を瞬時に引きたい場合、パソコンが一番有利であると考える。意外に知られていないのが、パソコンのキー操作(キーを押すこと)はマウス操作やスマホ操作よりも速いかつ疲れにくいということ。多くの情報を扱いたい場合はキーボード操作を使いたい。

一般の人にとって、プログラミングはハードルが高いと思われているが、目的設定がしっかりとできていれば、時間をかければそれなりのものはたいてい出来る。一番簡単なプログラミング環境はブラウザ(html+javascript)そのものである。ややこしいものをインストールするよりは、すでにインストールされているソフトを使うのが良い。

LangDicLab 的なプログラム環境の基本は、html5+svg+javascriptである。少ないコードで比較的リッチな動作を実現できる(コスパが高い)。別の言い方をすれば、汎用性・拡張性が高いかつ簡単だから。UIをsvg/インラインsvgで書くことの優位性については、別途まとめたい(いつになるか分からないが)。(※)svgはすごく有用なソフト仕様・web技術であるにもかかわらず、そこまでメジャーにはなっていない(特に、日本では)。

事前準備

音源の準備→学習参考書付録CDやダウンロード音声(mp3)を準備
音声インデックス作成→再生したい音声区間の再生開始時点と再生終了時点(または再生継続時間)をリスト化する

動作モード

検索モード

文字入力または貼り付け操作により、テキストボックスに文字入力する。
キー操作→検索結果表示から再生したい単語・フレーズ・例文を選んで再生させる。

dictationモード

キー押下→事前に登録した音声区間をランダム抽出したうちの1件が再生される。
キー押下→再生音声の文字表示(答え合わせ) または次の1件を再生

DEMO(動画)

改訂(Revisions)

2021 1203 以下の3記事(#01～#03)を1つの記事に再編集した
2021 0321 前サイトで音声開発日記 #03 公開
2021 0308 前サイトで音声開発日記 #02 公開
2021 0304 前サイトで音声開発日記 #01 公開

(以上)