恵迪寮寮歌アプリの歌詞データ解説
この記事について
この記事は北海道大学恵迪寮寮歌アプリで使用しているテキストベースの歌詞データについて解説している記事です。本編は「歌詞データ解説」です。以下の記事も参照してください。
寮歌アプリで苦労したこと
寮歌アプリ制作で一番手間がかかっているのが歌詞のテキストデータ作成です。もともと寮歌集という紙媒体をもって受け継がれてきたものなので、ほとんどはアナログな形でしか残っていませんでした。実際にはよく歌われるような人気の歌はウェブに転がっていたりもしますが、それは多くとも 2, 30 曲くらいのもので、全部で 100 を超える歌を全てデータで用意することが最初に必要でした。
もちろんこのデータ化作業もできるだけ省力化していくようにしており、「百曲寮歌」という (おそらく2008 年の第百回寮祭のときに作られた?) PowerPoint の歌詞スライドがあったので、それを PDF 化 → テキスト化という手順を踏むことで、全ての曲のうち主要な部分のデータをつくることができました。
ただ「主要な部分」しかありませんでした。というのも恵迪寮において各寮歌は必ずしも全部の節を歌わないためです。例えば広く北大生に知られる一番有名な寮歌「都ぞ弥生」は全部で 5 番までありますが、大抵の場合、1 番しか歌われません。部活などによっては 2 番まで歌うとかバリエーションがありますが、5 番まで全部歌う機会はあまり多くはありません。同様にして一番最初にできた明治 40 年寮歌「一帯ゆるき」も 6 番までありますが、普段、歌うのは 1 番から 3 番までです。すなわち、ほとんどの歌の途中までの節しかデータができませんでした。
とにかく残りのテキストは全部手で打ち込み、そのうちいくらかは寮の先輩で、293 期の執行委員長だった M. S. さんに手伝ってもらいました。
歌詞データ解説
寮歌集アプリにおいて歌詞に関連するデータは 2020 年 2 月現在 4 種類あります。
1. 漢字仮名まじりの原文ママのテキストデータ (.txt)
2. 漢字等にルビを設定した LaTeX データ (.tex)
3. 漢字等にルビを設定した HTML データ (.html)
4. 漢字等を全てルビで置き換えたテキストデータ (.txt)
このうち、3, 4 は 2 の LaTeX ファイルを元にして Ruby スクリプトで変換しているだけなので、実質作成しているファイルは 1, 2 だけです。
漢字仮名まじりのテキストデータ
これは冊子の寮歌集からできるだけ原文ママの形で打ち込んだテキストデータ。
都ぞ弥生の雲紫に
主に平成 25 年発行の寮歌集を参考に作成されています。UTF-8 (BOM 付き) で用意しています。漢字もできうる限り平成 25 年発行の寮歌集の字形を採用しています。(平の異体字 : 平 (中の二点が「八」の字になる) などなど)
漢字等にルビを設定した LaTeX データ
組版ソフトウェアである LaTeX (Wikipedia) を用いてルビを設定したデータ。
\ruby{都}{みやこ}ぞ\ruby[g]{弥生}{やよい}の\ruby{雲}{くも}\ruby{紫}{むらさき}に
というようなフォーマットで記入されている。ルビはほとんどが村橋個人がわかる(想像する)範囲でつけたので必ずしも正しいとは限りません。そもそも寮歌においてルビは時代によって変わっている可能性がある(解釈が異なってしまう場合がある)ため、何に依拠してよいか不明な場合も多くあります。
漢字等にルビを設定した HTML データ (.html)
HTML を用いてルビを設定したデータ。
<ruby><rb>都</rb><rp>(</rp><rt>みやこ</rt><rp>)</rp></ruby>ぞ<ruby><rb>弥生</rb><rp>(</rp><rt>やよい</rt><rp>)</rp></ruby>の<ruby><rb>雲</rb><rp>(</rp><rt>くも</rt><rp>)</rp></ruby><ruby><rb>紫</rb><rp>(</rp><rt>むらさき</rt><rp>)</rp></ruby>に<br>
寮歌集アプリ内部ではこの HTML を用いて表示しています。これは Ruby スクリプトを使って TeX トークンを置換して作成しています。
HTML データをブラウザで表示させた例
漢字等を全てルビで置き換えたテキストデータ
漢字をすべて「ひらがな」「カタカナ」で置き換えたデータ。
みやこぞやよいのくもむらさきに
Ruby スクリプトで簡単に生成できるため一応用意していますが、特に何かに利用しているわけではありません。将来的に歌詞検索や自動で読み上げさせるときに使えるかもしれないと思って用意しています。
以上、全てのデータは GitHub 上で公開しています。ただし著作権上の問題があるため。使用は個人利用の範囲に留めてください。