見出し画像

フォルマント兄弟の「和音平均化アルゴリズム」をめぐって

フォルマント兄弟:NEO演歌「夢のワルツ(2012)
基本旋律版試演:2012.7.20 大垣、ソフトピアジャパン、ドリーム・コア「兄弟式ボタン音素変換標準規格公式説明会」:岡野勇人, 長坂憲道(MIDIアコーディオン)
初演:2012.8.26 東京、サントリーホール:サントリー芸術財団サマーフェスティバル25周年記念「ジョン・ケージ:ミュージサーカス」:岡野勇人(MIDIアコーディオン)

「MIDIアコーディオンによる合成音声の発話及び歌唱の研究」(新しい時空間における表現研究)
日本学術振興会科学研究費補助金研究・基礎研究(C)研究課題番号23520175


「和音平均化アルゴリズム」は日本の伝統芸能などに聴かれるいわゆる「こぶし」を実現するために、微分音程旋律を 通常の12音平均律のキーボードで演奏するための方法であり、同時に押さえた鍵盤の音高を単純平均することにより 微分音程を演奏可能にしている。これはフォルマント兄弟が一貫して追求してきたリアルタイム音声合成に よる音楽演奏を可能にするための各種の規格・方式の一翼を担うものであって、「和音平均化アルゴリズム」を 「兄弟式日本語鍵盤音素変換標準規格」に加えれば、左手で音素ラベルの指定を、右手で微分音を含む音高の指定が 可能になるし、2011年度より3ヵ年でいわゆる科研費プロジェクトとして推進されている MIDIアコーディオンによる音声合成の発話・歌唱の研究において開発された「兄弟式日本語ボタン音素変換標準規格」に 基づくボタンによる音素ラベルの指定、更にアコーディオン特有の蛇腹に割当られた音量と声帯緊張度のパラメータ指定と 組み合わせることによって、アコーディオンの鍵盤で微分音を含む音高の指定をすることで、微分音程を含む日本語の「歌」を リアルタイムに合成した音声により「歌唱」することが可能になる。

これまでもフォルマント兄弟の活動に関しては幾つかの感想を記録してきたし、「和音平均化アルゴリズム」に基づく最初の 作品である「兄弟式日本語鍵盤音素変換標準規格」を用いたMIDIキーボードのための「NEO都々逸」6編については、 その初演に立ち会った記録を別のところに記した。「和音平均化アルゴリズム」をMIDIアコーディオンによる合成音声の歌唱に 適用した作品であるNEO演歌「夢のワルツ」については、私は基本旋律版試演、初演とも立ち会うことができなかったが、 初演の模様の記録が公開されており、成果を繰り返し確認することができるようになっている。

ここでは作品そのものではなく、その作品により可能性の一端が示された「和音平均化アルゴリズム」をはじめとする フォルマント兄弟のリアルタイム音声合成・演奏のための試みの全般について感じたことを、備忘のためのまとめておくことにする。


そもそもフォルマント兄弟のリアルタイム音声合成・演奏のための様々な試みは、「人間が演奏する」ことを基本的な 前提においていることを確認すべきだろう。「演奏する」ということからリアルタイム性への要請が出てくるし、また人間が 奏法を習得するという側面が生じ、記録や伝達の手段としての記譜法の問題が生じるのである。そしてこれらは 音声合成技術一般を考えればいずれも自明の前提ではないし、音声合成による音楽演奏に限定しても、やはり 同じことが言えるだろう。リアルタイム性に関しては自動音声合成でしばしば行われるようなテキスト読み上げ方式のことを 考えれば良いし、人間が演奏するという側面についても、リアクティブな自動演奏システムを考えることができるし、 元々人間が演奏するために作られたキーボードなど用いなくても、人間が読むことができるいわゆる「楽譜」がなくても 演奏をすること自体は可能であろう。

一方で、人間が演奏するための手段として採用されたのが、いわゆる西欧の音楽の伝統に属する12音平均律システムに 基づく音楽を演奏するためキーボードであり、それに対応して記譜法としても五線譜によるものが用いられている点にも 一定の選択が働いていることに注意しよう。しかもここでは「こぶし」をこなすために微分音程の演奏を実現することが 問題になっているのである。微分音程を実現する手段として、12音平均律に従う離散的な音程に調律された鍵盤を 用いる必要は全くないのは明らかで、同じ伝統に属する楽器でも、弦楽器を選択すればそれは遥かに容易であることは 直ちに思い浮かぶだろう。実際、フォルマント兄弟のメンバーの一人である三輪さんには12音平均律に基づかない作品があるが、 そこでは弦楽器が用いられている。例えば「村松ギヤ・エンジンによるボレロ」の弦楽器のパートではオクターブを18分割しているが、 弦楽器のパート譜には絶対的な音高ではなく、特殊な記号による相対的な上昇・下降の指示のみが行われており、 伝統的な記譜法からは逸脱している。西欧の音楽の系譜でも19世紀末から20世紀前半にかけて、主として東欧において 微分音程の組織的な導入の試みが始まった。例えばチェコのハーバやロシアのヴィシネグラツキーといった名前が直ちに思い浮かぶが、 先駆ともいえるブゾーニにおいては単なる理論的な可能性の提起に留まったものが、彼らの場合には理論の構築や記譜法の 提唱、更には具体的な創作や専用の楽器の制作として結実しており、その作品は録音もされていて、実際に聴いて確かめることも できるようだ。この中でヴィシネグラツキーの試みがシステマティックな音律の体系の拡張といった傾向を持っていて、彼の支持者で あったメシアンの移調の限られた旋法がそうであるような非伝統的な別の体系を志向する方向性が見られるのに対し(これは 同時期のロスラヴェッツが12音平均律の中で行った「合成和音」のシステムにも共通する)、ハーバの場合は、 むしろヤナーチェクにおける言葉のイントネーションを音楽の旋律に定着させる試みの拡張といった趣があり、フォルマント兄弟に おける「こぶし」の実現といった目的にはこちらの方が近いように思われることは興味深い。

一方、例えば日本の伝統音楽にも伝承のための記譜法、唱歌といったものはあるが、それは実現される音響の持続や音高、 強度といったパラメータを確定的に指定するようなものではなく、寧ろ奏法の指定である。だがその差異は根本的な発想の 違いが現象したものであることに注意すべきだろう。例えば能管のような楽器は音高の変化をつけられるようになってはいるが、 それは絶対的なものではなく、個別の楽器によって異なりさえする。つまり能管は実質的に不定のピッチを持ち、ノイズを含む 様々な音色の変化による表現を可能にする奏法を備えた打楽器であり、囃子の中にあってテンポとリズムを定める役割をしており、 そもそも五線譜のような西欧的な確定的な音高と持続を記譜するシステムには馴染まないものなのだ。

西欧の音楽が学校教育に導入されて以降、しばしば行われてきた五線譜に記譜された「民謡」は、ここでフォルマント兄弟が 17音平均律のシステムとそれを実現するための奏法としての「和音平均化アルゴリズム」によって救いだそうとしている側面を 切り捨てて、12音平均律の中で可能な5音音階の中に無理やり押し込めることによって全く別のものへと変質しており、 もともとの伝統の記録という観点からすれば全く不完全な残骸にすぎない。 一方で、記譜法が伝承のされ方を 定めてしまうという側面も無視することはできないし、いわゆる伝統と呼ばれているもの自体が、その伝統の担い手自身の手によって 変化させられていく例は枚挙に暇がないだろう。すぐに思い浮かぶのはほとんど伝承が途絶えてしまった平曲の奏法が、絶滅寸前の 言語のようにほとんど個人的な語法と区別がつかなくなってしまっているケース、あるいはかつては非常に複雑な節回しを持っていた 観世流の謡が、時代の推移に伴い簡素化されたとされているケースである。否、五線譜による記譜による伝統の「破壊」は 寧ろ、西欧の周縁部分の方がずっと徹底的であったろう。一方で、前述のハーバの例だけではなく、録音機器を携えて民謡の採集を 行ったバルトークがしばしば自己の作品において行ったように、微分音程の実現やノイズの発生、(日本での拍子木のそれのような )打拍の加速、あるいは均等な拍の分割ではなく、加法的な拍子のシステムを取り入れることにより五線譜の記譜法を拡張する 試みもあったし、逆に人口に膾炙したところではウィンナ・ワルツの拍の取り方のように演奏の伝統のようなかたちで、記譜されていない 側面が継承されるような場合を思い浮かべることもできる。

こうした具体的な事例は幾らでも拡張は可能だし、現代音楽の周辺におけるその後の音律システムの拡大について述べることも できるだろうが、そうしたことをここで続けることには意味はなかろう。ここで重要なのは、一つには拡張されたものであっても記譜法には 限界があって取りこぼされるものがあるということ、もう一つには、その一方で記譜法が伝承のあり方を決定し、更には「音楽そのもの」 と見做されているもの自体の可能性を規定してしまっている側面があるということだ。ベルナール・スティグレールが第三次過去把持と して定式化した、人間の身体にとって外部的なテクノロジーによる補綴的な記憶を、非本来的で不純なものと見做すべきではなく、 生物の「環境」がその生物が備えている知覚器官の検出できる帯域と解像度によって定まるのと同じように、或る種の器官の延長として 捉えるべきなのだ。


そうした視点に立ったとき、フォルマント兄弟の「和音平均化アルゴリズム」もまた、一方では微分音程の記譜と演奏が一般的な 12音平均律のMIDIキーボード上で可能になったという点をもって、従来不可能であった12音平均律から逸脱するような節回しを 記述し、演奏することが可能になったことに新たな可能性を見出すこともできるだろうが、その方向性での可能性の拡大は、 所詮は程度の問題に過ぎないという点をおいたとしても、それ自体が西欧的な確定的に音高や持続を記述する発想の圏内にあって、 その発想自体が決して自明のものでも絶対的なものでもないことに留意する必要があろう。

だが、実際には「和音平均化アルゴリズム」がリアルタイム合成音声歌唱システムの一部であることを踏まえれば、その全体としての 射程は、単に非西欧的な伝統音楽の新たな可能性に留まらないものを含んでいるのではなかろうか。勿論方法が実現を担保する ことはありえないから、これをもって何か新たな伝統が実質的に確立されたと見做すことはできないにせよ、新しい方法が持つ潜在的な 可能性を測ることは可能だし、今後の展開を図る上でも意味のないことでもあるまい。

そうして見たときに「和音平均化アルゴリズム」が持つ特性は、従来の楽器を用い、従来の記譜法を用いながら、それが従来の 記譜法とは異なって、実現される音響の記述ではなく、音響を実現するための手段の記述になっているという点であろう。 従来の記譜法では(移調楽器などの例外はあるものの)一般にはその両者を区別する必要がなく、奏法の指示であると同時に 実現される音響の記述でもあったものが、ここでは完全に両者が分離されている点が重要である。そしてその結果として、同じ楽譜が 示している音楽は、従来の場合と「和音平均化アルゴリズム」の場合とでは全く異なっているのである。例えば「和音平均化アルゴリズム」を 知らない人間が、「和音平均化アルゴリズム」を前提に記譜された楽譜を読んで、普通の楽器で演奏したときのことを考えて見れば良い。 一方で、彼に普通の楽器ではなく「和音平均化アルゴリズム」に基づくMIDIキーボードを渡して、記譜されたとおりに演奏させれば、 微分音程を含む単旋律に音素ラベルがついた節付けされた歌詞付の歌が得られることになることにも注意しよう。つまり指の動かし方に ついては基本的には異なるところはないのだが、同じ操作によって全く別の結果が得られるという点が問題なのだ。右手と左手を総動員 しても得られるのは単旋律を歌う合成音声なのである。全く同じ身体の動きが全く異なる音響を得るための手段となるわけである。

しかしながら、そうした事態もまた、結果として微分音程を含む歌を歌うことが問題なのであれば、それは実現手段としてはすこぶる 迂遠であるというほかないだろう。要するに、そのためにわざわざ鍵盤楽器の奏法を身につけるまでもなく、自分の声で歌う方がよほど簡単だし、 それならば別の記譜法上の拡張を行えば良いのだということになってしまうだろう。つまりそれは、人間が生物として備えている 発声器官を用いずに、それとは別の「器官」を用いて歌唱をリアルタイムに行うための方法であるという点を前提としているのである。 逆に、これは既に述べたことではあるが、単に合成音声による微分音程を含む歌詞付の歌の演奏をすれば良いのであったとしても、 「和音平均化アルゴリズム」に基づくMIDIキーボードによる演奏の技法の取得の意義は自明なことではないことを改めて思い起こそう。 繰り返しになるが、人間がリアルタイムに演奏することで、自分の発声器官を介さずに「歌唱」が可能になるような手段を提供するという点にこそ、 ここでの試みの意義が存するのである。しかも「和音平均化アルゴリズム」を前提にすれば、伝統的な音楽を演奏するための技術を 全く異なった音高と発声の実現のために用いることになるわけで、いわば新たに獲得された発声器官である「和音平均化アルゴリズム」と 「兄弟式日本語鍵盤音素変換標準規格」に基づくMIDIキーボードを用いて、従来の身体技法を媒介にして、歌を歌うという 可能性がここでは試されているのだ。もともと生物としての人間に備わった発声器官による歌唱に替わる、或いはそれを補綴する 手段が提供されていると考えることができる。

歌唱ではなく、言語コミュニケーションのケースでならば、理論物理学者である ホーキングのケースをはじめとして、補綴性の意義を実証する例には事欠かないだろうし、人声による歌唱ですら、マイクによる 増幅、エコーの付加、場合によっては不正確なピッチを補正してしまった音響をスピーカーに送るといったことが行われているのであれば、 あるいはプロの歌手の公開演奏でいわゆる「口パク」がしばしば行われる現実を考えれば、フォルマント兄弟の試みが、 単に歌唱という領域に留まらず、より一般的にテクノロジーに囲繞され、技術的な補綴性がもともとの生物としての身体と最早不可分の ものにさえなりつつある人間(とはいえそれは現在、地球上に居る人間の全体に不用意に拡張すべきではなかろうが)の「現実」を 浮かび上がらせる試みであるというように考えることはできるだろう。


そしてそうした射程を考慮に入れたときに、フォルマント兄弟が音声合成をするための方式として、現在商用においては主流となっている 連結合成方式ではなく、規則合成方式を採用している点が新たな意味を帯びてくるだろう。それは端的に、規則合成方式には 「元の人声」がない、という点にあると考えられる。(もっともごく一般的なサンプルは保持するのだろうが、これは「オリジナル」ではなく、 単に「素材」というふうに見做すべきだろう。)言い換えれば、生物学的な意味での、あるいはかつての「人間」とは異なった「人間以外」が 「しゃべる」ことを実現することを目的として、物理的な構造には中立の音響合成の可能性を考えれば、規則合成の方がコンセプチュアルには 筋が通っていると言えるのではなかろうか。そこでは発声器官の物理的な同一性は前提とされない。勿論、人間とのコミュニケーションが 可能となるためには、使用される周波数帯が人間の可聴域と一致している必要があるだろうが。(ちなみにこの程度の差異で良ければ、別に 地球外生命体を想定する必要などなく、人間と全く異なった発声器官で人間の声の模倣をすることができるオウムやインコの類、あるいは、 人間の可聴域外で複雑なコミュニケーションをしていることを推測させる状況証拠に事欠かないイルカやクジラの類を思い浮かべればよい。)

「フレディーの墓」において試みられたように、実在した人間の声を模倣するのであれば、あるいは「フレディーに日本語の歌を歌わせる」という フィクションを実現するためだけならば、更にそのオリジナル自体が機械を介して、何某かの変調を受けた形で聴き手に知覚されるような 環境にあったことを思えば、寧ろサンプリングによる連結合成の方が発想として自然である。逆にこの場合には、規則合成を方法として用いることが 「模倣」の忠実さや「不気味の壁」の問題といった系列の議論にその試みを位置づけてしまうことになるのではなかろうか。 勿論、そうした方向性にもそれ自体が持つ固有の意義がないとは思わないが、ここでの問題は、コンセプチュアルな側面と(恐らくは一定程度、 事実上の所与として制約になっている)技術的な選択の間の齟齬に微かな違和感が感じ取られてしまうことが避けがたいということなのである。 その一方で、「和音平均化アルゴリズム」の適用シーンにおける「高音キン」の方は、(こちらは権利上は「初音ミク」に寧ろ勝って) 規則合成方式に相応しいと言えるのではないか。

更に言えば、「和音平均化アルゴリズム」に基づく作品である「せんだいドドンパ節」では、17音平均律のシステムが採用されていることに 注意すべきである。それはオクターブを単に12ではない別の数で分割するというに留まらない。17音平均律は、12音平均律同様に五度圏を 構成できるため、内部構造を持った別のシステムの構築が行えるという点で、単なる音律の細分化に留まらないのである。 従ってここには、それが一見したところ「記録」し、「保存」し、「継承」しようとしているかに見える日本の伝統的な芸能と見た目は類似した、だが 異なった発想による新たなシステムに基づく音楽の伝統の構築を目指す志向があるように私には思われる。

だが、更にリアルタイム性が、まさに人間の演奏が介在するという点が加わった場合には、一体何が起きていると理解すれば良いのだろうか。 ここでは規則合成による、人間であるかどうかもわからない「誰でもない声」がそれを歌うことができるわけだから、それが人間が演奏する ものだとしても、もう一つの発声器官を持ったことにはなるのだ。そしてそれは、ホーキングの例が示すように、「補綴性」と隣り合わせでもあり、 したがって生物学的な人間とは別の身体を持った「種族」が歌うということができる。それは三輪さんが言う「コンピュータ語族」の歌に 相応しくはないだろうか。そしてそうした状況が一般化した暁には、それは最早「民族音楽」を超えて、別の種族のための歌ということに なるのではなかろうか。従って、フォルマント兄弟の試みの射程を端的に要約すれば、それは「ありえたかも知れない未聞の種族の音楽を 仮構すること」ということになるのではなかろうか。今のところはそれはまだ、新たな可能性のシミュレーションのレベルに留まっているとはいえ、 今日の状況を踏まえれば当然構想されるべきでありながら、未だに構想されたことのない、まさに現在の状況に相応しい試みであると 私には思われるのである。


だがしかし、それでは「高音キン」と演奏する(例えば岡野さんの)「私」は一体どういう関係にあるのか?という問いが今度は頭を擡げてくることになる。 そして例えばそれは、「自分の声を聴く」ことの「おぞましさ」とどう関わっているのだろうか?「私」はテクノロジーを介さなければ、他者が聴くようには 自分の声を聴くことはできない。自分の背中を見るためには、「鏡」が、三輪さんがイェリネクの「光のない」に因んで書いたテキストにも 出現する「鏡」がなくてはならない。ここでは虚像と実像の反転は回避しがたいように思える。こうした状況の中で、フォルマント兄弟が開発した テクノロジーによって獲得された「声」は、寧ろ、誰のものでもない/誰でもないものの「声」ではないか?それを私がリアルタイムに「発した」として、 それは「私の」「もう一つの声」なのか?それは「オリジナルの」、「本物の」「私の」声の代補、補綴なのか?まずもって、フォルマント兄弟の アプローチは、そんな「オリジナル」などありはしないということを浮かび上がらせる批判的な機能を果たしているのは間違いないだろう。 だが、ここでは単にそうした状況が分析されるに留まらない。実際に「私」は別の声を文字通り「手にした」のだから。そこで私が歌う歌は、 一体、どのような歌なのか?それは「自分探し」の果てにイニシエーションを経て見出される「本物の自分」の「歌」なのだろうか?

その答えは「はい」でもあり「いいえ」でもあるだろう。 そもそも「私」とは一体誰のことなのか?「私」の「声」など始めからなかったのではないだろうか?「私」とは他者達の 声が反響し、合成される場を名指す名辞に過ぎず、しかもそこでは最早、他者達の声は溶け合ってしまい分離することはできない。 サンプルであれば判別できる筈の(だからこそ、模倣するためには、「本当らしさ」を演出するためには、性別や年齢等に応じた サンプルを用意して、連結合成を行う方が容易いのだが)性別や年齢もわからない、もしかしたら(というのも、現時点では フォルマント兄弟の試みは日本語の音素の範囲に限定されているからだが、それは規則合成方式を取る場合には原理的な 制約ではない)国籍すらわからない、否、そもそもそれは最早「人間」ではないかも知れない、誰のものでもない/誰でもないもの の声ではなかったろうか。だとしたらもう一度、フォルマント兄弟の試みこそ、今日の状況を正しく見極め、その上でその中における 「私」の「声」のための可能性を拓くものなのだろう。 そしてそれは、三輪さんが自ら規定する音楽芸術の規定、すなわち「人間ならば誰もが心の奥底に宿しているはずの 合理的思考を越えた内なる宇宙を想起させるための儀式のようなもの、そこには自我もなく思想や感情もない、というより、 そこからぼくらの思考や感情が湧き出してくる、そのありかをぼくらの前に一瞬だけ、顕わにする技法」に相応しい試みではなかろうか。

(2013.2.17初稿公開, 18,19加筆・訂正, 2025.1.14 noteにて公開)


いいなと思ったら応援しよう!