【AI×UIUXデザイナー】音声の文字起こしは可能か？#2Wisper

2023年3月16日 14:07

こんにちは、ジャスミンです。
昨日こちらの記事をアップしたところ反響がありました。

文字起こしに同じように悩んでいる方も多いようです。
AIツール使ってみたものの、文字認識の精度が追いつかず、結局じぶんで確認し修正する時間がかかるというのが現状のよう。

AIにざっくり会話のアウトランを入力してもらって、微調整は人間にアウトソーシング、でもいいのかもしれません。

また、良い情報もいただきました。
デザイナー仲間のバンバンから「こんなサービスもあるよ」と教えていただいたので、早速試して見ることにしました。

Whisperを使ってみる

このサービスは無料で、かつ迅速で高度な文字起こしができるとのこと。
登録手順などはこちらを参照して進めます。

音声データは以下の状況です

・１時間の会議
・発話者が４人以上
・特定の業界の専門用語を多く使って話されている
・日本語

なし

変換できず、実証不可能

実証できなかった要因は以下です。

1時間の音声ファイルは36.5MBでした。
このような縮小サイトを使ってサイズを変更すると22.2MB。

これでアップロードできますが、ちょっと面倒です。

ファイルサイズを調整し、いざ変換！という場面でエラーメッセージが出てしまい、変換に失敗したことが分かりました。

この後、縮小サイトを変えてみて再アップロードしたり、ファイルの種類をm4aからmp3に変更してみたり、別の音声データを入れてみたりしましたが、いずれもエラー。

これ以上の追求は面倒になってしまったので、諦めることにしました！

成功した方は、どんなケースだと成功するのか教えてください。
再検証してみたい・・！

検証できずに終わるのが残念すぎるので、分かり次第追記したいと思います。文字起こしの道は続く。

#AIとやってみた

47,148件