読めない言語の楽曲情報をどう扱うか

 自分が読めない言語圏の音楽をmp3などのデータに保存する際、タイトルやアーティスト名といった詳細情報(メタデータ)をどうするかで毎回悩む。

 できればオリジナルの言語で表記に忠実に入力したい。というのも、言語によってはアルファベット表記に変換する際にゆらぎ(日本語でいえば「し」を「si」とするか「shi」とするかみたいな)があり、据わりが悪い気がするからだ。自分で全く読めなくなっても、正確な方を優先したい*1。

 勿論発掘ものなどリリース元がアルファベット表記を公式に出している場合はそれに従う。CDDBから情報が得られる場合にしても基本的にはそのまま採用する。問題はそういった情報がない、さらにはアルバムの詳細を検索しても出てこないものについてだ。今回この問題にぶち当たったのがミャンマーとバングラデシュの音楽だったので、これにどう対処したかを記していく。


ミャンマー語の場合

 当然ながら全く読めない、が、字の形の判別がつきそうだったので自力で入力することにした。PCからの入力は大変そうなので、Notionに専用のページを作ってスマホから入力し、再びPCで開いて貼り付ける。ジャケットに書かれている文字を一つずつ組み立てていく。上につく記号、下につく記号など全く読めないなりに何となく文字の成り立ちが分かるようになってくる。ちょっとずつ慣れて入力は速くなったが一枚やるのに一時間近くかかる。

画像4

こういうページを作ってちまちま打っていく。


 CDの詳細入力欄に貼り付ける際、PCからNotionを開くと文字列によっては自分の入力した通りにならず分離してしまっている(破線の〇が挟まったり下側に+がついたり)という新たな問題が現れる。よくわからずやったために入力する順番を間違えたのだろうか。ただミャンマー語のサイトでもこうなってるのをみることから、これでも問題ないのかもしれない。しかしやはり、ジャケットに書かれている表記と違ってしまうのは気分がよくない。

画像1

赤下線部分が分離してしまっている


 これには一度、分離した文字列を検索することで正しい文字列をサジェストさせる方法で乗り切った。サジェストされなくても検索結果に正しい文字列が表示される。それくらいのポピュラーな内容でなければ使えない手だが…今回はこれをコピペして良しとした。

画像2

分離した文字列を検索した結果。くっついてる文字列が出てくるがページ詳細部分では分離した表記が見られる。



ベンガル語の場合

 バングラ盤のベンガル語はGoogle翻訳アプリのカメラ入力(OCR)が使えるので基本はこれを用いて貼り付けていく。精度はまちまちらしく、詳細情報欄に貼り付けると分離してしまうことがあるが、先の検索サジェスト法を用いて推測&微調整する。

画像3

大体こういう誤字チェックが入る。


 2枚続けたところで雲行きが怪しい。アーティスト名で検索してもそれらしい情報が見つからない。単語ごとの翻訳にかけておそらくVariousやOriginal Castなどにあたる言葉かと推測する。それ入力して意味あるか?さらにアーティスト名が書かれていないトラックがものすごく多い。曲名で検索して行き当らないものもある。またアーティスト名が書いてあっても確実に間違ってたり(読めないなりにわかる)、そもそもトラック数が一致しないディスクもある。
 ていうか手元にあるやつ全部アルバムタイトルで検索して出てこないコンピCD-Rだしジャケなんかフジフィルムの写真用紙コピーだし2枚組で定価180円くらいだし規格番号同じだし曲ごと音圧まちまちだしビットレートもまちまちで全体的に低い感じするし、焼く時のドライブの不調か周期的なノイズが入ってるのもあるし、何なら頻繁にクリック音が聴こえるのもあるし(もしやYoutube動画流したのをそのまま録音しながらネットサーフィンでもしてるのでは…?)、突然別の曲にカットインする(???)のもあるし、明らかな海賊盤ではないらしいけど、限りなく…何つうか、野性味溢れる仕様…

 仕様自体はいいとして、そういう事なら正確に記録するのがバカバカしくなってきた。Shazamで引っ掛かるものもあるし、何だかんだラスエフも現地語でのScrobbleはほぼ見当たらないから関連アーティストなど横に繋げられないし、こっからは英語だ。グローバル社会!インターネット!USA STRONG!


バングラCD-Rアルファベット表記の手順

①まずShazamにかける。ヒットすればそのまま入力。ただし表記ゆれがないか一応ラスエフなどで検索&調整する。

②再生位置を変えながら5回くらいShazamしてヒットしなければジャケに書かれている文字をOCRで読み取り検索。トラックの長さと近いYoutube動画があれば見ていく。ここで同じトラックがみつからなくても曲タイトルのアルファベット表記が分かる。

③見つからない場合、あるいはジャケットが明らかに間違ってる場合、歌い出しの言葉を当てずっぽうでアルファベット表記に変換して検索する。それっぽい変換のコツはいくつかあるが、何度か試してると検索サジェストに正解が出てくることもある*2。フォークソングのアレンジ系は決まった詩を使うことが多いのである程度推測できてサジェストも出やすい。誰のバージョンかわからなくてもとりあえず曲名だけ入力して保存しておく。声色に特徴があれば似てる人を探して当たってみる。

④それでも無理、ギブアップなら、仮タイトルとしてジャケのベンガル語をコピペしておく。

 ギブアップにも一応理由があり、時間が解決する場合もあると考える。実はShazamでヒットしたものには、昔の曲でもサブスク等での配信年月がごく最近になっているものがしばしばあって、つまり現在引っ掛からなくてもいずれ出来るようになる見込みがあるのだ。いつか必ず探し出してやるからな忘れてなければ、つうことで目印のためにも分かりやすくベンガル表記を入れておく。

画像5

多分曲名違うんだろうけど仮なので気にしない。



おわりに

 今回はオリジナル言語(ミャンマー語)と英語両方のアプローチを用いたけど勿論これらが最適解ではない。特にバングラ盤はたまたまShazam成功率が高くYoutubeにも動画が多かったことからアルファベット変換が出来たのだと思う。もっと情報が少なければトラック番号で曲管理するしかないし、アルバム名も不明なら手も足も出ないことだってあるだろう。ずっと前にタイ語で悩んだ時にどう対処したかを完全に忘れていたので今回こうして記してみた。次回以降こういった際に役立てることができればと思う。



*1 なぜ正確さに拘るのかは自分がLast.fmでリスニングログをつけていることが影響している。メタデータ込みで再生しライブラリに記録すれば、文字情報として残すことができる。音源データは場合によって文字化け等のリスクがあるが、これなら履歴から引っ張ってくればよい。しかしながらジャケットの表記がラスエフでの整合性とそぐわないことも多々あるので、そこはケースバイケースで対応する。

*2 実際「Prem Koro Na」「Sundori Komola Nache」「Sadher Lau Banailo More Boilagi」「Milon Hobe Koto Dine」「Bondhu Tor Laiga Re」等という曲名はこの方法で探し出した。

いいなと思ったら応援しよう!