精密採点Aiについて雑記 ~表現技法編~
はじめに
こじがみさまです。この名前にもようやく慣れてきました。以前公開したものがあまりにも長く読みづらいんじゃないかということで、「カンストに必要な考え方編」と今回の「表現技法編」の2つに分割してみました。公開後一旦しばらく寝かせていましたが、新たな情報を少し盛り込みつつ加筆修正してみました。
続・総合100点を取るために必要な知識
前回触れきれなかった表現技法の部分の補足みたいな形になります。特許・特開をしっかり読み込んでる人にとっては半分くらいは既知の内容だと思います。
それぞれの技法がどのようなことをすれば検知されるのかを図を使って軽く説明します。分かりやすそうなものから順番にいきます。
①ハンマリング、プリング
ハンマリング、プリングの特開の文章にはそれぞれこう書かれています。
「(前略)検出した前記歌唱ピッチの中に、連続する2つの歌唱ピッチのピッチ差が所定範囲内であり、且つ所定数以上連続する第1の水平区間および第2の水平区間と、当該第1の水平区間の終了時の歌唱ピッチから当該第2の水平区間の開始時の歌唱ピッチに至るまで、所定の条件で歌唱ピッチが上昇する上昇区間とが存在する場合、ハンマリング・オン歌唱が行われていると特定する(後略)」
「(前略)検出した前記歌唱ピッチの中に、連続する2つの歌唱ピッチのピッチ差が所定範囲内であり、且つ所定数以上連続する第1の水平区間及び第2の水平区間と、当該第1の水平区間の終了時の歌唱ピッチから当該第2の水平区間の開始時の歌唱ピッチに至るまで、所定の条件で歌唱ピッチが下降する下降区間とが存在する場合、プリング・オフ歌唱が行われていると特定する(後略)」
は?って感じですね。分かる人は分かるでしょうし、分からない人にとってはチンプンカンプンな書き方だと思います。これを図示すると下のようになります。
どうでしょうか、文章で見るよりかは分かりやすいと思います。人によってはもしかしたら判別しづらいかもしれず申し訳ないのですが、キャプションに書いたようにピンクの線がハンマリングの軌跡、オレンジの線がプリングの軌跡になります。ちなみに以前自分が歌っていたときの軌跡の一部をかいたつもりです。
ハンマリングは初期に「直角しゃくり」と呼んでいた人もいる技法で、形を見ればその理由も分かると思います。元ネタはギターのハンマリング・オン奏法で、弦をはじいた後途中で別の部分を指で叩いて振動する弦を短くすることでピッチを上げ、2つの音を滑らかに接続する技になっています。まさにそのまんまのことを喉ないしエフェクタで行えばいいというわけです。
プリングは初期には発見されていなかった技法ですが、ハンマリングと前後逆のことをやればいいだけです。これも元ネタはギターのプリング・オフ奏法で、あらかじめ長めのところも指で押さえておき、弦をはじいた後短めの方の指を弦を軽くはじきながら離すことで、ハンマリングの逆のことができるらしいです。
画像の1本目のハンマリングの軌跡を見てもらうと分かるのですが、ほんの少し走り気味にハンマリングを始めることで、少し短めのバーでもより安定して検知させることができます。これは「走りハンマ」と呼ばれています。プリングでも似たようなことが可能で、走りハンマとは逆にバーの末尾を越えて伸ばすことで安定して検知させることができます。フレーズの終わりにこれをできるようになるとかなり戦略が広がります。
また、さらに実用的なワザとして、「うねりハンマ」というものがあります。
上の図を参考にしてください。大会等で用いられているのもたまに見ます。形からの推測ですが、ハンマリングの検知要件の一つである上昇区間とプリングの検知要件である下降区間が両方存在しているため、より安定して「どっちかは検知させられる」のではないかなと思います。実際にこれを狙ってみると百発百中で中央線が飛ぶのを確認できます。技法を狙ったのに外してしまうと安定性に多かれ少なかれ悪影響があるので、バーの長さに余裕があれば安定度の高いこれが理想形と言えるでしょう。
②ヒーカップ
これも図を見れば感覚でわかりやすいかと思います。例により特開の文章を引用しておくと、
「ところで、ロカビリーが発祥と言われるヒーカップ唱法という歌唱技法が存在する。ヒーカップ唱法は、楽曲フレーズの語尾のピッチを跳ね上げるように歌唱する方法である。このような技法はカラオケ歌唱において多用されている一方、これまでにヒーカップ唱法を検出できる方法は知られていない。」
「(前略)検出した前記ピッチに基づいて、前記歌唱データ中に、所定の短期間にピッチが所定値以上、上昇する第1の区間が存在するかを判断する(中略)前記第1の区間の直前に位置し、一定期間以上、ピッチがほぼ一定に保たれている第2の区間が存在するかを判断する(中略)前記第1の区間及び前期第2の区間が存在すると判断された場合に、前記第1の区間はヒーカップ唱法による歌唱区間であると判定する(後略)」
2箇所引用してみました。1つ目の方にほぼ答えが書いてありますが、それよりも「このような技法はカラオケ歌唱において多用されている」の部分が気になってしまいました。そんなに多用されてます、、、? まあいいや。
最後に一気にピッチが上がっているのが分かると思います。フォールの上下逆バージョンみたいな感じですね(実際にはフォールよりも横幅が狭く急激にピッチが変化します)。
ビブラートやロングトーンに充てたバーでは、そのままだとウラ技法が1つも入らないので、最後にヒーカップを入れて無駄のないようにする手法が一般的です。フォールと比較してもより確実に検知してくれます。
またこれは本採点に実装されているかは分からないのですが、特許の文章を見ると、「ファルセットを用いたヒーカップの場合はさらに加点する」機能と、「ヒーカップを使いすぎると減点する」機能の存在が記載されています。もしかしたらヒーカップに頼りすぎるのはよくないのかもしれませんね。
元ネタはよくわかりませんが、特許にああ書いてある以上はロカビリーなるジャンルでよく使われていた技法なのだと思います。個人的には英語圏の女性歌手がよく使うイメージがあるのですが、全然そんなこともないかもしれません。
(追記)解析勢によると「Hiccup」と「HiccupWithFall」の2つの技法が存在しているようです。違いについて正確なことは分かっていませんが、文字通りの解釈をするならば、フォール気味にピッチを下げた後にヒーカップの動きをすれば検知されそうです。実際にそういった歌い方をするアーティストの方は多いです。逆にヒーカップの要領でピッチを跳ね上げてから再び素早く下ろすことでも末尾からピンク線を飛ばすことができ、これもおそらくHiccupWithFallが検知されているものと思われます。
また、上記「減点」仕様についてですが、これについてはどちらかというと「加点の頭打ちラインが存在する」というイメージの方が正しそうです。これは人によって感覚が異なるとは思いますが、自分としては「5~10回で加点が頭打ちになる」という認識です。15回くらいだという人もいます。正直20回も30回も検知させても何も変わらない気がします。もしかしたら2種が混在すると多少マシになるかもしれませんが。
150回くらいソテカンをしていますが、最近(2023年以降)はこの技法を一切狙わない方向に舵を切っています。加点力があまりにも低くメリットがないためです。また、やってみると分かるのですがヒーカップを極端に多用すると聞くに堪えない仕上がりになってしまいます。大会等でたまにヒーカップ連打勢を見かけますが、大して加点はされないわ聞き心地は悪くなるわで良いことがないのでその戦略は避けることを強く勧めます。(追記終わり)
③順V字アクセント
特開の引用
「(前略)検出された歌唱ピッチが、前記カラオケ楽曲のリファレンスデータに含まれる一のノートの発音開始タイミングを含む所定の期間内にて下降した後、上昇し、且つ当該所定の期間以降は当該一のノートに近似したピッチに一定期間保たれている場合に、当該一のノートに対する歌唱がアクセント歌唱であると判定する(後略)」
つまり一瞬ちょっと下げようねってことですね(適当)
かなり見づらいかもしれませんが、バーの先頭付近で一瞬音が低くなっているのが分かると思います。ただ、実際に歌っているときの感触としては、「一瞬音高を下げる」というよりかは「一瞬で少し遅めに小さなしゃくりを入れる」の方が近いです。ミニしゃくりみたいなイメージを持っておくと習得しやすいかなと思います。後述しますが、「ミニしゃくり」は高確率で別の技法として検知されていそうなことが判明したので撤回します。
狙う場所としては、上り階段や同じピッチのバーが連続する場所などがオススメです。
(追記)
感触としては、ピッチ変動を変に意識するよりは一音だけ少し強調して歌う(強勢アクセントと言うようです)ことを意識した方が検知されやすいように感じます。
またこれはエフェクターを使った場合の話ですが、BendEchoというエフェクターを二重に用いるとこの技法を再現できます。エフェクターについてはいずれ別の記事で触れます。
また、解析勢の情報によると「VTypeAccent」「VTypeAccentCut」「VTypeAccentBottom」の3種類が存在するようです。正直何が違うのかよく分からないですし確かめようもないのであまり気にしなくても良いとは思いますが、混在した方が高得点になりやすい可能性はあります。
④逆V字アクセント
これまたアクセント類の一種です。以下、特開の引用。
「(前略)検出した前記歌唱ピッチを含む区間の中に、あるノートの発音開始タイミング近傍において検出された歌唱ピッチから第1の条件を満たすよう歌唱ピッチが上昇する上昇区間と、当該上昇区間よりも後の区間であって、連続する2つのフレームの歌唱ピッチのピッチ差が第2の条件を満たす水平区間と、前記上昇区間から前記水平区間までの間に、第3の条件を満たすよう歌唱ピッチが下降する下降区間と、が存在し、且つ前記あるノートの時間長と、前記上昇区間及び前記下降区間に含まれるフレーム数に応じた時間長とが第4の条件を満たす場合、前記あるノートに対する逆V字アクセント歌唱が行われていると判定する(後略)」
先ほどの順V字アクセントの上下逆バージョンという認識で大丈夫だと思います。実際に歌っているときの感触としては、「一瞬音高を上げる」というよりかは「一瞬で小さなこぶしを入れる」の方が近いです。ミニこぶしみたいなイメージを持っておくと習得しやすいかなと思います。狙う場所としては、下り階段や同じピッチのバーが連続する場所などがオススメです。
⑤L字アクセント
アクセント類の最後の一種です。以下、特開の引用。
「(前略)検出した複数の前記歌唱ピッチを含む区間の中に、あるノートの基準ピッチよりも高い歌唱ピッチから所定の条件で歌唱ピッチが下降する下降区間と、当該下降区間の終了時の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が所定範囲内である区間が所定数以上連続する水平区間と、が存在する場合、前記あるノートに対するL字アクセント歌唱が行われていると判定する(後略)」
形を見てもらうと分かるように「ヒーカップの前後逆バージョン」とみるのがよさそうです。実際に歌っているときの感触としては、「バーの先頭に合わせて思いっきり声を裏返す」というのが近いと思います。上手い人がやればまた違うのかもしれませんが、自分の歌った動画を見返した時の聞き心地としては、「最悪の一言。ゴミレベルです。」災厄と言っていいくらい。ヒーカップと同様に連打を避けた方がいい技法の1つです。
また、詳しいことは特許の文章を後半まで読むと分かるのですが、おそらく内部上2種類のL字アクセントが存在しています。「降りてきてそのまま着地する」タイプと「降りてきた後少し昇ってから安定する」タイプです。解析勢によると「LTypeAccentStrong」と「LTypeAccent」の2種類が存在しているようですが、どっちがどっちなのかは正直よく分かりません。もしかしたらこの2種類が混在している方が高評価になるのかもしれませんが、そこまで意識して狙える人はいないんじゃないかなとも思います。
形状の問題から、直前のバーでヒーカップが併発したり、むしろそのヒーカップだけが検知されたりすることもあります。まあ正直どっちが検知されたかなんて別にどうでもいいというのが歌っているときの心境だとは思いますが、前述の通りおそらくヒーカップは加点力がかなり弱いので、できるだけ判定を吸われないようにしたいところです。しっかり区切れていれば吸われにくいのでその意識も持つと良いと思います。
⑥フライダウン
まだ使いこなしている人が少ないであろう〇〇ダウンシリーズの説明です。以下、特開の引用。
「(前略)検出した複数の前記歌唱ピッチを含む区間の中に、連続する2つの歌唱ピッチのピッチ差が所定範囲内である区間が所定数以上連続する水平区間と、当該水平区間よりも前の区間であって、あるノートの基準ピッチよりも高い歌唱ピッチから前記水平区間の開始時の歌唱ピッチまで、所定の条件で歌唱ピッチが下降する下降区間と、が存在する場合、前記あるノートに対するフライダウン歌唱が行われていると判定する(後略)」
まあ要するにピッチがだんだん下がっていく感じです(適当)。細かいことはまた気が向いたら別の回にでも説明します。
これがFDの軌跡です。前のバーと同じ音程のところから入っているのが分かると思います。歌っている感覚としてはしゃくりの上下逆バージョンのような感じです。ハンマリングの逆のイメージでガクっとピッチを下げてしまうとダメで、しゃくりの逆のイメージで少しずつ下げながら本来のピッチに近づけていく必要があるようです。ガクッと下げてしまった時も高確率でプリングとして検知される上、恐らくプリングの方が加点が大きいので、そこにこだわらなくてもいいかもしれませんが。
(追記)別記事で詳しく書いていますが、ソテカンを狙う際には「ぶつ切り歌唱をして加点を避ける」区間が必要になります。その時に敵となるのが「狙っていないのに勝手に検知される技法」です。主に先頭から意図しないピンク線が飛ぶのですが、そのうちの一部がこの技法ではないかと考えられています。自動で入るならオトクなのでは?とも思いましたが、誤爆が多発してもあまり加点されている感触がないため、恐らくこの技法もヒーカップと同様に頭打ちラインが低い、あるいは一回当たりの加点力が非常に弱いと思われます。実際、Bend系を搭載したエフェクターを用いて同じ技法を入れ続ける検証でFDを入れると、順V字や逆V字やL字を入れた時よりも明らかに加点量が低いです。(追記終わり)
⑦スローダウン
まだまだ百発百中には及びませんがある程度慣れてきたので下の方で追記します。
以下、特開の引用。
「本発明者は、聴感上、フォール歌唱に類似しているが、より力強い印象を与えるカラオケ歌唱と判断される歌唱音声信号に含まれる歌唱ピッチを解析したところ、あるノートの発音開始タイミング近傍の歌唱ピッチから、歌唱ピッチが検出できなくなるまで、歌唱ピッチが連続して徐々に下降するという変化を示すことを見出した。」
「(前略)カラオケ楽曲の主旋律を示すリファレンスデータに含まれるノートのうち、あるノートの発音開始タイミング近傍において検出された歌唱ピッチのフレームから、歌唱ピッチが検出されなくなったフレームまでの間に、第1の条件を満たすよう歌唱ピッチが連続して下降する下降区間が存在し、当該下降区間に含まれるフレームの歌唱ピッチのピッチ差が第2の条件を満たし、且つ当該あるノートの発音開始タイミング近傍において検出された歌唱ピッチと、当該あるノートの基準ピッチとのピッチ差が第3の条件を満たす場合、当該あるノートに対するスローダウン歌唱が行われていると判定する(後略)」
ピッチの下がり方が急すぎず緩やかすぎないこと、下降区間の開始時点で本来のピッチとの差が基準を満たすこと、下降開始時と終了時のピッチ差が基準を満たすことの3つが条件だと書かれています。結局は滑らかにスーッとピッチを落としていけばいいんじゃないかなと思います。また、最初に引用したようにフォールと似たような聞こえ方であるというのもヒントになるかもしれません。本来のピッチ通りかそれより少し上から入ってフォールより早めに落とし始めるようなイメージです。一応そのイメージで実験してみたらバーの中央からピンク線が飛んだので、だいたいはあっていると思います。またいろいろ試したところ、ハンマリングやプリングよりも短いバーにも入れやすいので、仮にウエイトが上記2技法と同じだとすれば効率よく表現力に加点できるかもしれません。ちなみにずっと「Slow Down」だと思っていたために「SD」と略していたのですが、特開を読み直した感じでは「Throw Down」が正しそうなのでここでは「TD」と略しています(しかしggった限りでは元ネタは「Slow Down」である模様、よくわからん)。(追記)解析により、「SlowDown」という技法が存在することが明らかになったようなので、略称としては「SD」が正しいでしょう。
(さらに追記)エフェクターを使用した実験の過程で気づいたのですが、どうやらL字アクセント検知を狙った際に高確率でこの技法が検知されるようです(身内では不正SDと呼んでいます)。L字アクセントなら先頭から線が飛ぶはずですが、実際のところ中央からの線が結構な確率で飛んでいるのが目視でも確認できます。水平区間が確保できているとL字アクセントが、水平区間が確保できず下降区間がメインになるとスローダウンが検知されると見てよさそうです。エフェクターなしでも同様の歌唱軌跡で検知させることができたので、気付かないうちに結構検知してもらえている可能性もありますね。この不正SDは他の中央技法と比べて短いバーでも狙いやすいので、意図的に入れられるようになると一つの強みになります。
⑧エッジボイス
リリース後半年間ウラ技法の検知数を確認することができたのですが、その期間で誰もこの技法を検知させる手法を確立できなかったので、真相は完全に闇の中です。「じゃあ特許探せばいいじゃん」と思う人がいるかもしれませんが、なんと(思いつくワードで調べた限りでは)特許まで出願公開されていないという隠しっぷり。ルール上出願から1年半で公開されるはずなので、仮に出願していたとしてもつい最近であるということです。また、ノイズを混ぜたりといった検証をしている人もいましたが、結局それらしきものは検知されなかったようです。
後に解析勢が「EdgeVoice」なる先頭技法が存在することを公表しましたが、検知条件については何もわからないままです。
また他の技法とは別名義で登録された特許がいくつか確認されていますが、いずれも精密採点Aiでのエッジボイス検知に利用されているかは不明です。
まあとにかく現段階ではよく分からない技法なので、はなからそんな技法はなかったものとして考えていてもいいと思います。検知されたらラッキーくらいで(されてもわからないけど)。
⑨逆こぶし
ここからは追記分になります。解析勢の情報に感謝です。
名前の通りこぶしの逆のことをすれば検知されます。一瞬ピッチを上げて戻すのがこぶしなので、一瞬ピッチを下げて戻せば良いわけです。
上記「うねりハンマ」とやること自体は似ているのですが、こちらでは下降区間から上昇区間の間に水平区間を設けないようにする必要があります。上手く調整すればうねりハンマと逆こぶしを混ぜながら使いこなせるのでは?とも思いましたが、こちらが下位互換と考えられる理由が2つあります。
①オク下だと検知されない
これは痛手です。ハンマリングもプリングもオク下でも検知される技法であるため、当然うねりハンマもオク下でも検知されるのですが、逆こぶしの形にすると途端に検知されなくなります。
②(おそらく)加点量が比較的小さい
これはAi感性ゲージの伸びや連打した際の表現力の評価値からの推測ですが、おそらく他の中央族3種よりも加点力は弱いです。多種の技法を混在させることで高評価になる説を信じるのであればある程度混ぜ込むメリットもありそうですが、正直多くても4~5回で十分な気はします。
以上の理由から、ある程度長いバーはこちらではなくより加点力の高いと思われるハンマリングやプリングに充てた方が良いと思います。
またあまり採点には関係ないかもしれませんが、この技法が何度か検知されると分析レポートが「ロングトーンの中にあるアクセントが魅力的。セクシーさを感じさせます。」という文になることがあります。具体的に何回以上でそうなるのかは分かりませんが、意図して検知させたのが2回でもこの分析レポートが出たので、閾値はかなり低そうです。
⑩早いフォール
かつて「逆ヒーカップ」と呼ばれていたものの正体がおそらくこれです。名前の通りフォールと形自体は似ているのですが、実際に検知されるときの聴感はかなり異なります。
名前の通り旧作から存在している「フォール」という技法を狙う時よりも短い時間で一気にピッチを落とす必要があります。この違いを上手く使いこなせればフォールと早いフォールを適度に織り交ぜて加点することができるかもしれません。ヒーカップと同じ末端技法ですが、おそらくこちらの方が加点する上では強いので、習得できればヒーカップの上位互換として使えるかもしれません。ただし検知させる難易度はこちらの方が高いです。
一部の歌のうまい人が当たり前のように使っている技法なので、大会等で他人の歌唱を聴いているとたまに出くわします。
⑪大しゃくり・早いしゃくり
かねてより一部で「深しゃくり」と呼ばれていたものの正体が前者、「小さいしゃくりみたいなの入れると先頭から線が飛ぶよね」と噂されていたものの正体が後者だと思います。ハンマリングに失敗したときにたまに先頭から線が飛ぶことがありますが、これは前者の方だと思います。
また早いしゃくりにも「RapidShakuriStrong」と「RapidShakuri」の2種類があるようですが、例の通り違いはよく分かりません。
大げさにしゃくりを入れると先頭線が飛ぶことがあり、これが大しゃくりでしょう。また一瞬で小さいしゃくりを入れても飛ぶことがあり、これが早いしゃくりでしょう。いずれも名前からの推測なので正確なことはわかりませんが、一応上の図のような軌跡じゃないかなと考えています。
⑫フォールエッジ
まーたよく分からないものが発掘されてしまいました。まだエッジボイスすらよく分かっていないというのに。
「おそらくああいう歌い方のことなんだろうな」というのは普段聴いているアーティストの歌い方から想像つくのですが、実際にそれを真似してみてもそれっぽいピンク線が飛んでくれないので、検知条件はよく分かりません。
ピッチを落としながらエッジをかけていく技法を指しているのはほぼ間違いないと思うので、喉に自信のある方は試してみてください。
当然加点力についても全く分かりません。
⑬その他(歌いまわし系統)
解析勢によって上述したもの以外にも多数の技法が発掘されました。
上昇ポルタメント、下降ポルタメント、水平、ジャストヒットなどです。
そもそもどこからピンク線が飛ぶ技法なのか、あるいはピンク線が飛びすらしない技法なのか、それすら分からないのでフォールエッジよりも謎に包まれています。ポルタメントとかアーチ形とかが何を指しているのかはググると分かると思うので、検索して参考にするのも良いと思います。
ここに該当する技法の多くが「単一のバーの歌い方から定義できるものではない」、すなわち「ここで技法が検知されましたという地点を表示できない」と考えられるので、個人的にはピンク線が飛ばない技法だという説を推しています。
おわり
ご精読ありがとうございました。多少は読みやすいボリュームにできたかなと思います。次回はようやくですが今度こそソテカンについて説明していきます。