「歌ってみた。」を作る理系大学院生の備忘録

2023年12月3日 02:38

この記事は慶応義塾大学杉浦孔明研究室のアドベントカレンダー3日目の記事です。二日目の記事は以下の先輩のものになります。ぜひ。

どうも。とある機械学習を専攻する理系大学院生です。歌うのが好きです。本記事はイキり機械学習用語が突然出てくる可能性がありますが、スルーしてください。

今日は「なんとなく」で作れる「歌ってみた。」動画の作り方なんか書いちゃったりしようかなと思います。まぁただの素人でしかないので、横目で見てくれるくらいがちょうどいいです。結論から言うと今回は懐かしの「サマータイムレコード / じん」の歌ってみたをつくります。成果だけ見たい人は一番下まで飛ばしてください。

必須なもの

歌声
マイク（別にスマホでもいい）
inst音源（自分で弾いてもいい）
DAW（ここは有料のほうがいい）

自分のマイクは以下のコンデンサマイクを使ってますが、別にとりあえずは何でもいいです。（コンデンサマイクだと他にオーディオインターフェース、XLRケーブル、ポップガードなども必要なので初期費用多くなるかも…）

inst音源は「曲名 inst」とか検索をかけると出てくるものがあります。ただし、違法なダウンロードはしないように心がけましょう。ピアプロとかが安全だと思います。規約はしっかりと読んだほうがいいです。

DAWはDigital Audio Workstationの略で、簡単に言うと音楽を作り上げていく工場となるソフトウェアです。スマホアプリだとGarageBandをイメージしてもらえればと。

これは有料のもののほうがいいです。どうしても無料でやるのであれば、GarageBandがいいでしょう。有料のもので、かつ有名だと使い方の解説動画が仰山あるので、そのほうがわかりやすいと思います。例えばCubaseとか。自分はお金がないのでStudio One使ってます。正直結構優秀。

あるといいもの

素敵な歌声
ゴールの予想図となるGT音源
オーディオインターフェース
イヤホン・ヘッドフォン・スピーカー
マスタリング用のソフトウェア
ChatGPTへの課金
動画編集ソフト

何事もそうですが、まずは完成を具体的にイメージすることが必要です。そことの差分を自分なりの損失関数で導出し、0に近づけていくことが理想となります。いい感じのマネしたい音源があったら、保存でもしておきましょう。

オーディオインターフェースは簡単に言うと、それぞれの武器のパフォーマンスを最大限に発揮しようとしてくれるコミュ強です。ここにマイクをつなげたり、PCやヘッドフォンをつなげたりすると音をきれいに拾ってくれます。自分は以下のものを使ってます。

イヤホンとヘッドフォンとスピーカーは結構大事で、全部持っているといいです。全然音の聞こえ方が違うので、ヘッドフォンのみで作っていい出来だと思ってもスピーカーで聞くとごみみたいに聞こえることは多々あります。逆はあまり起こらないので、スピーカーだけでも持っておくといいかもです。スピーカーは必ずステレオで。

マスタリング用のソフトウェアは簡単に言うと、仮完成したものを自動的にクオリティ上げしてくれる優れものです。立派なお皿の上に料理が乗るとおいしそうに見える感覚と同じ現象を起こせます。自分は以下のOzone使ってます。使い方がとても簡単。

ChatGPTへの課金は理系学生であればもう全員していると思いますが（強い思想）、今回は動画の背景さえ作れればいいので、ほかの画像生成モデルが使えるならそっちでもいいです。

同様に動画作成ソフトですが、今回はただの背景をつけているだけなので、スマホの無料動画作成アプリでも十二分にできます。自分は普段動画編集ソフトはfilmora使ってます。めちゃ使いやすい。

余談ですが、この使い方をいろいろと教えてくれる公式YouTubeが好き。

作り方

前置きが長くなったので、サクッと作ります。以下の手順です。

録音（主線とハモリ）
音をきれいに聞こえるようにする
ピッチ補正
味付け
（マスタリング）
動画作成
反芻しながら修正を続ける

録音

録音はまずDAWにinst音源をいれてから始めます。曲のBPMは調べて、そこに合わせて新規のプロジェクトを立ち上げるようにしてください。ここがあっていないとちょっとめんどくさし。今回は以下の音源を拝借しました。

これも必ずなのですが、「録音」「停止」は超簡単なショートカットキーを付与しておきましょう。自分は「ctrl+up」とかにしてます。それと停止したら再生位置に戻るような設定も効率化にはかなり重要です。

自分の中でうまくいったなと思うものを2-3本は残しておくように心がけてください。（後になって聞き返すとこっちのほうがいい、みたいなことが多発するため）

ハモリはあると厚みが増します。チャレンジしてみると面白いと思います。最悪は音源コピペで高さを変えればハモリは作れるのですが、ちょっと機械間のある声になるので、歌うほうがおすすめ。

音をきれいに

ここがようわからん、となるところです。ある程度理解しながら、なんとなくの感情で進めましょう。どうしてもようわからんという人は以下のようなソフトウェア使うと自動でそれなりのことをやってくれますよ。

自分でやる場合は以下を意識してください。括弧内のところは別にやらなくてもいいです。

（ノイズ除去）→ ローカット →（聞き心地の悪い帯域を小さく）→ 音の大きさを均一に

ノイズ除去ですが、マイク自体があまりよくない場合にはやったほうがいいでしょう。これはソフトウェア使いましょう。以下のやつでいいです。（今回は面倒くさくてやっていないです…）

あとはEQというもので帯域ごとのバランスを調整したり、音の大きくなっている部分をCompressorでつぶしたりという作業があるのですが、次の記事を見るのが一番わかりやすいです。

ピッチ補正

なんだか賛否両論のあるこいつですが、絶対にやりましょう。聞き心地がまるで違うので。またピッチ補正には以下のプラグインを使うべきでしょう。

使い方は以下の動画がわかりやすいです。

味付け

ここからは好き勝手やっていく楽しいところなのです。適当にリバーブ（声を反響）させたり、重ねてみたり、右側から聞こえるようにしてみたり、奥行きをつけてみたり、とかあらゆることを試してみて、音源に合うものを探しましょう。

ただし大事なのは、この味付けを行うときにはFXチャネルというものを作り、音源に直接かけるのではなく、エフェクトをつくって音源に送る（send）という風にやるようにしましょう。全体の統一感が出たり、そのエフェクトのかけ具合を調整できるようになります。

動画作成

今回は１枚の背景に歌を合わせるくらいのことをしましょう。ここでChatGPTの登場です。DALL·Eによる背景画像生成を試しましょう。自分の対話履歴は以下です。

この作成した画像に対して文字を入れましょう。無料でやるならおすすめはCanvaです。オンライン上なので、どのPCやタブレットからも編集できる。

https://www.canva.com/ja_jp/

少しネオンみをもたせて以下のような画像を作成しました。

ここになにか適当なエフェクトとかをほんの少しだけつけるとかがいいかもですね。

反芻作業

ここが一番重要です。正直ここまでノリと勢いで作っていいのですが、何回も自分で音源を聞いているとそのノリのせいで「なんかいいもの」に聞こえてくる現象があります。これを阻止しましょう。

「無駄なアレンジをしていないか」「なんか聞こえ方が悪くないか」「音量バランス変じゃないか」くらいは確かめましょう。

また、ヘッドフォンをオーディオインターフェース越しに使っている人は特に、イヤホン・スピーカーで聞いたり、スマホのスピーカーで聞いたほうがいいでしょう。感覚としては「作画がいいからめちゃくちゃいいアニメに見える」現象に近いです。画質が落ちたモニターで見ると、がっかりすることがありますよね。

様々なデバイスで聞くことと、時間を空けて聞き直すことを意識すると、無駄な失敗を未然に防ぐことができます。ありえないくらいに聞きましょう。

そうして完成したもの

ついに完成！所要時間は３時間＋反芻３日くらいです。研究の合間にやるのがおすすめです。