無料から始める歌モノDTM（第20回）【調声編②＜歌声＞その1・音声】

2023年4月25日 12:06

はじめに

はじめましての方ははじめまして。ご存知の方はいらっしゃいませ。
ノートPCとフリー（無料）ツールで歌モノDTM曲を制作しております、

金田ひとみ

と申します。

かなり長らくお待たせしましたが、記念すべき20回目です。
（ウソです。自己紹介回含めたら前回が20回目だったということに後から気づいたのであった。）
本業が一段落しそうなのでできる限りペースを戻します。

今回から【調声編】の内容に移っていきます。
基礎回を未読の方は、一読をオススメします。かなり長いですが、私の調声の方針になります↓
未読の場合、何をやっているのか、なぜそうなるのか、いつどこでどう活かせば良いのか分からなくなる可能性もありますのでご注意ください。
また科学的・理論的なアプローチが増えて、当たり前だろと思うような前提条件やらの解説も登場しますが、気長にお付き合いくださいませ。

以下今後の【調声編】全体の流れです

＜歌声＞：音声、音価・音高、トランジェント・アタック等について
＜発音＞：子音・母音、フォルマント、ピッチガチャ、ブレス等について
＜抑揚＞：ビブラート、コブシ、シャクリ、フォール等について
＜効果＞：エフェクター、ハモ等について

以降もこの流れに沿って解説します。
順番はDTMer/ボカロPに馴染みやすいであろう、DAWでの曲制作順に則っています。

今回は一番最初、＜歌声＞についての第1回目です。
＜歌声＞回全体では曲制作でいうところの「音源選び」と「ノート打ち込み」に相当します。

で、1回で歌声回の半分くらいは終わらせたかったのですが、かなりアッタリマエな話から始めた結果、何度も推敲するうちに3万字超えそうだったので今回は「音源選び」に相当する部分、「音声」についてがメインです。
とりあえず歌声ソフトに歌わせることができていて、レベルアップのために技術的なことを優先したいという方は、次回を連続投稿しますので今回は読み飛ばしていただいても構いません。
のちのち特殊な歌い方をさせてみたいと思った時に読み返すくらいでちょうどいいかも。

歌声ソフトは入手したけれど、思ったように歌ってくれないんだけど？
みたいな段階の方は一読しておくと良いかと思います。

音声

音声≠歌声

音声（ヴォイス）つまり人間の声とひとことに言っても色々あります。
笑い声、泣き声、唸り声、叫び声などなど。くしゃみや咳も声と言えば声です。
しかしこれらは書き言葉としては表現しにくい声。
歌声ソフトは歌わせたいメロディーの音符に、対応させたい文字を入力することで発声を再現しますので、書き言葉にできないものは調声うんぬんの前に楽譜に乗せようがありません。
あくまで「歌声」ソフトです。

たとえば笑い声の「ハハハッ」くらいならまだ近いように聴こえますが、「ハクション」と実際に言いながらくしゃみをする人はいません。擬音語というやつ。楽譜には乗せにくい。
というか普通は効果音に分類する場合が多いのでわざわざ再現も考えないと思います。歌声ソフトでは再現不可能に近い。
でも曲に使うことはあります。
この曲↓のアウトロ（3:09～）あたりの咳き込みは実はフリー効果音です。私の生声ではありませんよ。

それからボイスパーカッション（ボイパ）など楽器音を声で再現したものも書き言葉にしにくい。「ダ」とか「ツ」とか「ボ」とかの近い発音でそれっぽくはできるでしょうが、一般的な歌詞とはまた違うので今回は取り上げません。これらも擬音語と考えられます。
実験的にやるのは面白そうです。自作品ではないですがこちら↓とかスゴイ。

他に書き言葉にしにくいものだと、ファンタジー・SF・ホラー等の雰囲気重視の映画BGMなどで入っている「ホヮー」とか「ボォー」みたいな何と発音しているのかわかりにくい大人数の合唱みたいな音声。
ハミング、ヴォカリーズなどと呼ばれます。

（ドビュッシー『夜想曲』第三楽章。クラシックのヴォカリーズの例。ただのドビュッシー好き。）

歌声といえば歌声なんですが、歌詞を歌うメインボーカルではないし、これもそれっぽい歌声が効果音音源で用意されていることもあるのでわざわざ調声にこだわって作ることは少ないと思います。できなくはないですが、雰囲気を出すためにバックで薄く歌わせるだけなら労力に見合うかというと……。
ゴスペル風なアカペラ曲なんかをやってみるなら挑戦する価値はありそうです。

初期のこの曲↓の頭サビ「行こう way to nowhere～」あたりのバックで入れているのはDAW付属音源です。SF感を出すためですね。
使ったのは下画像の赤で囲んだあたりの音源です。

GM音源（General MIDI音源）なので、大抵のDAWに付属していると思われます。
GM音源には他に、笑い声や叫び声もあるにはあります。

自作曲ではこちら↓でそれっぽい効果を狙っています。

ただのハミングではなく「ア/ウ/オ」、「ハ/ホ」、「ラ/ル」など同じ子音で違う母音の発音を、多い箇所で同時に5つほど重ねてエフェクターやパン振りで広がりを持たせています。印象的なコーラスに聴こえるのはそのためです。
複数の母音を重ねることで、「ホヮー」といった感じの日本語には無い独特の発音に聴こえるようになっています。

日本語に無い独特な発音という意味では英語などの「外国語」も再現が難しい部類です。
元になる歌声は日本人の歌手や声優が日本語で歌ったものを録音してデータ化している以上、英語等の発音は専用ソフトでないと基本的に再現できません。
音声学・言語学の観点からNEUTRINOで英語発音の再現に挑戦している方がいらっしゃいましたのでご紹介しておきます↓

私もたびたび英語歌詞を入れることがありますが、ここまで再現を目指すことは少ないです。カタカナ英語でもある程度ナチュラルに聴こえるなら充分かなと思っています。それですら結構手間ひまかかるのですが。
こちら↓のサビの「Brake」の[Br]の巻き舌感や、各単語の語尾の子音のみを再現するだけでも少々大変です。

そして書き言葉にもできるけれど歌声ソフトで再現しにくいのが「話し言葉」。
絶対不可能ではないですが、かなりの労力を掛けてやっとそれっぽい、といったところ。NEUTRINOだと東北ずん子やずんだもんたち東北シリーズ、琴葉姉妹シリーズなどトークソフトもあるシンガーであれば、そちらを利用したほうが手っ取り早いです。

私はNEUTRINOオリジナルキャラクターを中心に利用していますので、再現できてもカウントコールや掛け声等の短いセリフがいいとこです。
何気に2曲目↓からセリフはやってました。東北きりたんなのでトークソフトを導入すればよかった話なんですが、その頃はまだトークソフトなんて「ゆっくり」くらいしか知らなかったもので。
（というか今後もDTM用としては導入しないかも。）

イントロの「1,2,3,4」
他にセリフが入っている作品だと以下も調声での再現です。↓

イントロ「OVER？」「SOS！」
サビ「Uh~Go!Go!」「DAISUKI」

「ハイハイ」「ハイヨー」

Aメロ「うん」。ASMR（耳元で喋っているような感じ）っぽい。

基礎回でも紹介したこちら↓は英語発音もセリフも入っているので調声難易度は高いほうだと思います。

NEUTRINOオリジナルキャラに喋らせるソフトを制作されている方もいらっしゃるようです↓

スゴイ！　それでも流暢なお喋りとまではそう簡単にいかないですね。

それとセブンちゃんには今では「VOICEBOX」というテキスト読み上げソフト（トークソフト）が用意されています。
私はまだ導入していませんが、セブンちゃんにしゃべらせたい方は以下公式サイトをご覧ください。

歌声ソフトは基本的に歌手や声優が普通に日本語で歌ったときの声を録音してそれをデータ化していますので、歌声以外の音声や特殊な発音は再現が難しい。
基礎回でお話したように、調声とは元の歌声に組み立て直したり、できればそれ以上のものに組み上げたり、あるいは元の声では出せない歌声や歌い方に組み換えたりする作業であって、歌声（シンギング・ボイス）でない広い意味での音声（ヴォイス）を再現するのには向いていません。
近いことはできますが今回の【調声編】で取り上げる予定はそれほどは無いです。カタカナ英語のナチュラルな発音について触れるくらい。

どうしてもリアルに再現したいという方は、効果音やトークソフトなど専用のものを使ったほうが良いかと思います。
要は音源選びですね。

音源選び＝「歌声選び」は声質・声色・癖の好みで選ぶべし

歌声には一人一人特徴があります。「声質」です。これは音源選び＝歌声ソフトとそのシリーズのシンガー選びの段階でほぼ決定します。
あとでもう一度触れますが、男声女声の違いや、一発でその歌手だと判別できる特徴は調声では大きくいじれません。
ボカロをAIシンガーっぽく、AIシンガーをボカロっぽくするのもちょっと難しいようです。挑戦している方もいらっしゃるのでそのうち当たり前の技術になるかも。

それから現実の歌手でも曲調や曲中の感情表現に応じて声を使い分ける時もあります。
寂しさや悲しさを表現する時にはか弱い感じに歌ったり、はっきり主張したいサビで声を大きく太くしたり。
これは「声色（こわいろ）」と言ったりもします。
そのシンガーの声質の範囲内である程度の調声は可能です。

声質と声色の違いは、DTM音源で「音色」を「おんしょく／ねいろ」と使い分ける感じでしょうか。
DTMにおいては「おんしょく」のほうが「声質」、「ねいろ」が「声色」の概念に近いのではないかと思います。
「音質」（クオリティー）と「声質」が「質」という漢字を使っておきながら一対一対応してないのが概念的に面倒。

（「ねいろ/おんしょく」の違いに関しては以下ブログをご参考に↓
「おんしょく」読みに関してちょっと厳しいですが正確性担保のため取り上げます。確かに私もごっちゃになってましたね。
DTM界隈だと電子音を主に扱うからか「おんしょく」読みが多い気がします。クラシックなどでアナログな楽器音だと逆転して「ねいろ」が楽器本来の音の意味……。ごっちゃになる～。
「声色」も「こえいろ/こわね/せいしょく/しょうしき」など読み方によって意味が変わってきます。しょうしきなんかは仏教用語なんで全く違う意味です。）

そして歌い方には人によってそれぞれ「癖」があります。歌声ソフトのシンガーたちもです。
元々持っているビブラートの傾向やシャクリ癖などですね。
一般的な調声は、この「癖」に関するものを主な対象にしているのではないかと思います。

しかしシンガーによって癖の強さや掛かりやすさ、掛かる箇所は違います。
細かいところでは子音から母音までの移行タイミング、音高の変化の仕方、声が大きくなるポイント（音圧や音量）も違います。
それらのシンガーごとの特徴を先に捉えた上で調声しないと、逆に不自然な機械音声感が増したりしますので注意です。

音源プラグインで言えば、同じ楽器でも打ち込みや処理の仕方が変わってくるようなものです。
例えばギター音源にこだわる方であればご存知かと思いますが、特にスライドやチョーキングなど「ギュイーン」となめらかに音程が変わる演奏で、音源プラグインによってアーティキュレーション（強弱等の演奏表現）の癖が全然違うことがあります。
初期設定で調整できるキースイッチやパラメータが気に入らず、手動でベロシティ調整やピッチベンド等を駆使して再現することも多いのではないでしょうか。

NEUTRINOであれば、特定の音域でストレートに「なー」と歌うシンガーもいれば「ぬぅぁ⤴」とねっとり歌うシンガーもいます。音域の他、音の伸ばし具合や前後の発音によってその癖が強く出たりあまり出なかったり。

癖を把握できるようになってくると、ビブラート等の調声を施さなくても勝手にちょうどよいところでナチュラルに掛けてくれたりしますし、いずれ解説するピッチガチャ等のテクニックを、曲調や感情表現に応じて狙い通りに使い分けることができます。

歌声ソフトのシンガーたちにもそれぞれ声質の特徴や得意な声色、歌い方の癖があって、みなさんも無意識に好みや使いやすさを感じて選んでいるのではないかと思います。
そしてひとつ心に留めておいていただきたいのは、あくまで私の考えですが、ご自身が好きになれないシンガーを最初に採用するのはオススメしないということです。

調声技術で好みに近づけていくことはできます。
でも最初は労力の観点からもモチベーションの観点からも苦戦します。基本的にはそのシンガーを活かす方向で考えてください。
莫大な時間と加工技術を投入してなんとか理想の声に近づけた結果、やっぱりイマイチ好きになれないなら徒労になるかもしれません。
癖などを把握して調声技術が身に付いてくれば、意外な発見があったりして面白くはあるんですが。

私は初投稿が男性目線の曲だったので、NEUTRINO唯一の男性ボーカルであるナクモくんで苦戦しました↓
今では調声技術である程度自在に歌ってもらえるようになっています。

世にはたくさんの歌声ソフトがありますので、まずは他の方が制作されている作品をいろいろ聞き比べてみて、ご自身に「刺さる歌声」を見つけてください。
単純な知名度で言えば「初音ミク」ですが、ボカロ系とAIシンガー系は仕組みから違いますし、同じ系統やシリーズでもシンガーによって声質・声色・癖、そして最初から備わっている調声機能は違うので、いくつかのソフトを比較したりレビューやコメントを一見しておく価値はあります。

ただし広く認知されることが目標であれば現時点ではやはり「初音ミク」一択みたいです。あとは「可不」、古参のボーカロイドシリーズ、新登場した直後のシンガーくらい。
その分ライバルも多いですので、歌声の好みどうこうより、そもそもの作詞作曲力、インパクト、動画やイラスト、宣伝力なんかがものを言うと思います。

NEUTRINOだと残念ながら「ずんだもん」「東北きりたん」がいいトコで、オリジナルキャラは「めろう」さんが少し話題になるくらい。
有名になりたいなら調声より他の要素を極めたほうが良いです。
よほど音に敏感なリスナーや、同ソフトを扱ったことのあるボカロPやDTMerでないと調声のクオリティーの違いには気づきにくいと思います。

私の場合、初音ミクは登場時から知っていて若い頃は挑戦してみようと考えたこともありましたが、購入してDTMを始めるには至りませんでした。
楽曲としては好きなものはたくさんありましたが、歌声まで含めて「刺さる」もの、そして自分でも作ってみよう！というところまではまだ膨らませられなかったのだと思います。まぁ実生活の忙しさのほうが要素としては大きいですケド。
2年ほど前にたまたま聞いたのが東北きりたんで、そのあとNEUTRINOに出会いました。
ちなみにキッカケはこの曲↓

歌声に力を入れるなら、楽器音源選びにこだわるようにシンガーにもこだわってみてください。
そのシンガーにしか表現できないことがあるはずです。

調声で出来ること

調声で出来ることを確認しておきます。

現実の歌手でも曲調や感情表現で声質・声色・癖を変えることがあります。歌声ソフトのシンガーたちもある程度可能です。

その内、手っ取り早く調声できるのは癖の部分です。
一般的な調声解説で取り上げられる、ビブラート、コブシ、シャクリ、フォールなどは最初からソフトや調声ツールに備わっている機能で、初めてでも簡単に調声できます。初めて、簡単、初心者、誰でも……あたりのワードはたいてい罠なんですけどね。
なので私の解説では【調声編】後半の抑揚での項目になります。もっと基礎的なところから押さえていきます。

それからソフトによっては子供っぽく／大人っぽく程度はいじれるようです。これは声質や声色に関する調声です。
NEUTRINO調声支援ツールだと「フォルマント」調整によって最低限のことは可能です。

それと、本来は音源選びの段階で決めるべきですが男声と女声の違い。これは調声可能な場合もあります。
単純な音域の違いではないのでフォルマント調整の他、ボイスチェンジャー的なエフェクト加工が必要になってきますが一応それっぽくはできます。
で、それっぽくは聴こえるけれどシンガーによっては不自然になります。
現実の男性が裏声のような高い声で歌ったからといって女声にはならないのと同じです。
歌声ソフトは女性ボーカルが多いし人気が高いので、男性ボーカルでお気に入りはなかなか見つけにくいかもしれません。男性ボカロPやDTMerには厳しい界隈。
いわゆる両声と言われる男声女声どちらも出せる人がいるように、シンガーによっても調声しやすさがあるようです。
これについては今回【調声編】では取り上げません。私も作品で発表していませんし。
実際にやっている楽曲や技術的に解説されている方もいらっしゃいますので、どうしてもという方は探してみてください。

そして、さらに難しくなってくるのがウィスパーボイスやデスボイス、ハスキーボイスなど。
曲ジャンルとしてはジャズやシャンソン、演歌などパワフルだったりセクシーだったりひと味違うなと感じる人間らしい声はAIシンガーですら現時点の歌声ソフトでは完全再現は難しい部類のようです。
オペラやヨーデルなんかもおそらく難しいと思われます。やりませんけど。
かといって現代音楽で主流のロックなどで耳にするシャウトや、感情を込めたバラードのかすれ、ファルセット≒裏声なども普通の調声ではそこまで思ったように再現できない。
さらに話し言葉要素も複雑に絡んだヒップホップ系のラップなんかはリアルに調声するのは果てしなく難易度が高い。

実はこれらはただの歌い方や癖の変化ではなく、元の声質や声色を特徴付ける周波数成分からいくつかの成分が削られて代わりに別の成分が増えていたりします。
こうなると周波数の波の形からいじるレベルで、普通の調声ツール機能程度ではどうしようもありません。

例えば歌詞で「ハー」と普通に歌う時の「ハー」と、呼吸で息を吐く時の「ハー」はまったく別の声質です。
ウィスパーボイスであれば後者の呼吸音の成分が入って、代わりに母音の「ア」の音が削られています。
人体だと声帯の振動の仕方そのものが変わっています。
音声学的には音の高さを決める基本周波数（倍音を含まない最低音）の構造が弱くなったり無くなったり、500～3000Hzくらいの低中周波数域が減って母音を決定づけるそれぞれの特徴が喪失していたり、代わりに高周波数域が増えて子音の発声時間が延長したりなどの傾向が……はい、どうしようもないです。

ですので、まずはそういう歌声に近いシンガーを探してください。
NEUTRINOだと東北ずん子（キャラクターボイス：CVは声優の佐藤聡美さん）がややウィスパーボイスやかすれっぽい傾向があります。
シャウト系ならセブンちゃん（CV小岩井ことりさん）がその傾向でパンチがあります。東北きりたん（CV茜屋日海夏さん）も高音域でその傾向が強くなります。
ナクモくん（CV不明）は超高音域でファルセットっぽくなります。ただし経験上暴走率のほうが高いです（笑）　悲痛な叫び声を上げます。
めろうさん（CV不明）は極端な癖が無くて歌わせやすくはありますが、逆に言えば全体的に柔らか過ぎて突き抜けた特徴を出しにくいです。

元から持っている傾向を調声で強調することはできますが、そもそもの元成分が少ないシンガーだと強調しようがないので、やはりシンガー選びが大事です。
それですら私が今持っているあらゆる調声技術を駆使してそれっぽいというところまでで、強引に強調しても機械音声感が増すばかり。
「調声が上手い」とコメントをいただくことの多い私でも、既存の技術ではさらにリアルにするのは難しいと感じています。
ソフトそのものや調声AIなどの進化に期待しましょう。

歌声ではないですが、最近のトークソフトにはささやき声などを別バージョンで用意しているものもありますね。別バージョン、要は別録音したものということなので同じ人でも根本的に出し方が違う声質や声色です。
さきの佐藤聡美さんご本人でも、東北ずん子のようなウイスパー感のある声質から、アニメ『けいおん！』の田井中律役のしゃがれ感のある太い声も出せるので、探せばそれっぽい歌声ソフトは見つかるかもしれません。

まずはナチュラルな発声が目標

結局のところどのシンガーでも基本的な機能で調声できるのは主に「癖」の部分です。
「声質」「声色」はシンガーによって調声しやすい傾向や範囲があります。
コ〇ンくんの蝶ネクタイ型変声機ほど万能ではないです。

「声質」「声色」に関する調声は、＜発音＞の回で改めて解説していくことになります。上手く使いこなせれば一般的な調声テクを越えて根本的にレベルアップします。
そのあとに＜抑揚＞に当たる「癖」の調声です。
順番大事。

そしてまず最初の目標は、すべてのシンガーに共通する「ナチュラルな発声」です。
音楽の授業だろうがボイトレだろうが最初は、正確な音程と正確な長さと適度な声の大きさで滑舌良く発声練習するところからのはずです。
そのうちに自分の得意な歌や歌い方をつかんでいくと思います。

DTMで言えば、まずはピアノロールにノートを正確に配置できるようになること。
それもただ並べるだけでなく、現実のその楽器の音の特徴と最低限の演奏法を知って、その楽器を再現した音源プラグインの性能や機能を把握してからでないと打ち込み臭さが残った素人っぽい音のままです。
特徴や性能を知らないまま表面的な調声テクに頼るのは、グランドピアノ音源でギター演奏法のチョーキングするようなもの。特に狙いが無い限りは最初はやめておいた方が無難です。

結び＆次回予告

というわけで＜歌声＞回の基礎の基礎、音声についてのお話はこのへんで締めます。
お好きな音源＝シンガーはお迎えしていますでしょうか。
私はNEUTRINOにハマったので、解説もNEUTRINOを使ったものになります。
次回からはその調声ツール画像を見たり実際の音を聴きながらの解説になります。
と言っても曲制作におけるノート打ち込みレベルの話からです。

「そのくらいできるわ」とお考えかもしれませんが、例えばギターの打ち込みをナチュラルに再現するのがいかに難しいかDTMerならご存知かと思います。それと同じ感覚です。

音の鳴るところが人体に近くニュアンスがダイレクトに反映される楽器ほど打ち込みも難しい。
歌声は人体そのものから音が鳴る楽器のひとつと見なすこともできます。
しかも音色（おんしょく／ねいろ）自体も単一の楽器より断然幅広い。アコギとエレキの違い程度の比ではないです。
でもアコギでもエレキでも共通の演奏法＝ノート打ち込みのコツがあるように、調声にも共通の調声法があります。

まずはナチュラルに聴こえるノート打ち込みのコツを押さえるところから始めましょう。

次回はこのまま連投しますので、しばし小休止ということで。
Thank you for reading!