見出し画像

【検証】Whisper-1 large-v2 は清春を文字起こしできるのか


はじめに

助六です。今回も検証系です。
今回はWhisperの評価軸である精度と速度のうち、精度の検証です。
内容はWhisperの最上位モデルである「Whisper-1 large-v2」で、清春様の歌声を正しく文字起こしできるかという対決企画です!
文字起こしするのはSADSの「忘却の空」の一部です。


検証内容

まずは清春様の声を準備する必要があるので、
「忘却の空」をボーカルリムーバーで歌声抽出したのですが、
そもそも、歌声として認識されていない箇所も多く、
この時点で清春様の強さに鳥肌が立ちました、、、。強すぎる。

ボーカルリムーブの結果

何とか上手くリムーブできている部分だけと使うようにしました!
使用する部分は下記の歌詞部分です。

忘却の空の対象部分の歌詞


検証結果

下記がWhisper-1 large-v2で文字起こした結果です。
いかがでしょうか!?

冷たい雨が降れば 煙草に火をつけて
少しだけ平気な様子でいよう

行き急いでいたいけれど 忘れてない
トリコになった時 決めたストーリーこうもといている

だからベルベネットの空の下歌う声は聞こえてる
デタラメのタウナが交わしてる僕の声が聞こえてる

絡まれるベルベネットの空できっと声は聞こえてる
鮮やかで悲しいこの空で僕の声が聞こえているから

正直、清春様をここまで文字起こしできるとは思ってませんでした。
正直想像以上でしたが、「から回るVELVETの空」が「絡まれるベルネットの空」など完璧ではないので(ある意味聞こえたままに文字起こしするという意味では完璧なのかもしれないが笑)、今回は清春様の勝ちです!!


最後に

ここまで読んでいただきありがとうございます☀️
普段はAI機能、特に画像認識や音声認識の機能をUIにしたゲーム開発の過程や成果物、技術的な発見も発信していきます!
Xで情報発信も始めました。
「AI×ゲーム開発」にご興味ある方はフォローしていただけると嬉しいです!

いいなと思ったら応援しよう!