![見出し画像](https://assets.st-note.com/production/uploads/images/100398100/rectangle_large_type_2_bd44ac6043ef3171124c9e8724e57458.png?width=1200)
【AI×UIUXデザイナー】音声の文字起こしは可能か?#2Wisper
こんにちは、ジャスミンです。
昨日こちらの記事をアップしたところ反響がありました。
文字起こしに同じように悩んでいる方も多いようです。
AIツール使ってみたものの、文字認識の精度が追いつかず、結局じぶんで確認し修正する時間がかかるというのが現状のよう。
AIにざっくり会話のアウトランを入力してもらって、微調整は人間にアウトソーシング、でもいいのかもしれません。
また、良い情報もいただきました。
デザイナー仲間のバンバンから「こんなサービスもあるよ」と教えていただいたので、早速試して見ることにしました。
Whisperを使ってみる
このサービスは無料で、かつ迅速で高度な文字起こしができるとのこと。
登録手順などはこちらを参照して進めます。
音声データは以下の状況です
・1時間の会議
・発話者が4人以上
・特定の業界の専門用語を多く使って話されている
・日本語
レビュー
なし
変換できず、実証不可能
実証できなかった要因は以下です。
つまづき1:ファイル上限問題
![](https://assets.st-note.com/img/1678941053536-BZXQkUOq6m.png?width=1200)
1時間の音声ファイルは36.5MBでした。
このような縮小サイトを使ってサイズを変更すると22.2MB。
これでアップロードできますが、ちょっと面倒です。
つまづき2:ファイル変換エラー
![](https://assets.st-note.com/img/1678942499359-IO4obQpr1h.png?width=1200)
ファイルサイズを調整し、いざ変換!という場面でエラーメッセージが出てしまい、変換に失敗したことが分かりました。
この後、縮小サイトを変えてみて再アップロードしたり、ファイルの種類をm4aからmp3に変更してみたり、別の音声データを入れてみたりしましたが、いずれもエラー。
これ以上の追求は面倒になってしまったので、諦めることにしました!
まとめ
成功した方は、どんなケースだと成功するのか教えてください。
再検証してみたい・・!
検証できずに終わるのが残念すぎるので、分かり次第追記したいと思います。文字起こしの道は続く。