見出し画像

【AI×UIUXデザイナー】音声の文字起こしは可能か?#2Wisper

こんにちは、ジャスミンです。
昨日こちらの記事をアップしたところ反響がありました。

文字起こしに同じように悩んでいる方も多いようです。
AIツール使ってみたものの、文字認識の精度が追いつかず、結局じぶんで確認し修正する時間がかかるというのが現状のよう。

AIにざっくり会話のアウトランを入力してもらって、微調整は人間にアウトソーシング、でもいいのかもしれません。

また、良い情報もいただきました。
デザイナー仲間のバンバンから「こんなサービスもあるよ」と教えていただいたので、早速試して見ることにしました。

Whisperを使ってみる

このサービスは無料で、かつ迅速で高度な文字起こしができるとのこと。
登録手順などはこちらを参照して進めます。

音声データは以下の状況です

・1時間の会議
・発話者が4人以上
・特定の業界の専門用語を多く使って話されている
・日本語

レビュー

なし

変換できず、実証不可能

実証できなかった要因は以下です。

つまづき1:ファイル上限問題

25.6MB以下にしてね というメッセージ

1時間の音声ファイルは36.5MBでした。
このような縮小サイトを使ってサイズを変更すると22.2MB。

これでアップロードできますが、ちょっと面倒です。

つまづき2:ファイル変換エラー

ファイルサイズを調整し、いざ変換!という場面でエラーメッセージが出てしまい、変換に失敗したことが分かりました。

この後、縮小サイトを変えてみて再アップロードしたり、ファイルの種類をm4aからmp3に変更してみたり、別の音声データを入れてみたりしましたが、いずれもエラー。

これ以上の追求は面倒になってしまったので、諦めることにしました!

まとめ

成功した方は、どんなケースだと成功するのか教えてください。
再検証してみたい・・!

検証できずに終わるのが残念すぎるので、分かり次第追記したいと思います。文字起こしの道は続く。


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?