
フィードバックを受けて、無限もじおこしをアップデートしました!(v1.0.3)
ありがたいことに、以下の記事を中心に想像を超える反響がありました!
この「無限もじおこし」では様々な経路で、利用者さんからのフィードバックをいただく接点を作ってます。それらを通して、ご利用いただいている方々から様々な声をいただきました。
こちらを踏まえまして、2024年10月9日にアプリのアップデートを行いましたので共有させてください!
アップデートはこちらから↓
アップデート内容
🙆♂️ 長時間音声の文字起こしを安定化
音声ファイルが1時間を超えると、文字起こし処理がうまくいかないという事例の報告が上がっておりました(ご不便をおかけした方々、申し訳ございません!🙇♂️)
これを受けて処理の安定化を図りましたので、長時間であっても問題なく文字起こしができるように改修を図っております。もしまだ不具合が起きた場合は、ご連絡いただけますと幸いです!
ちなみに文字起こしにかかる時間の目安は、元音声の1/10となります。例えば1時間(60分)の場合は、6分前後の時間がかかると思っていただけると良いかなと思います。
また文字起こしはバックグラウンドでも処理がされますので、アプリを閉じていても大丈夫です!(もし不具合が出ましたらご連絡ください🙏)
🔄 リトライ処理の安定化
文字起こしが失敗すると、リトライボタンが表示される仕様となっています。ただ、このリトライがうまく機能していないという報告が上がっておりまして、改善しました。
大きく2点の改善を行っています。
リトライ時はOpenAI Whisper APIを優先的に利用する
音声データは基本的に削除しない
リトライがうまくいかない原因は多岐に渡りますが、色々と調査したところ音声データの声質によってなのか、Geminiだとそもそもの文字起こし処理がうまくいかないケースがありました。
その場合、何度 Gemini でリトライしても文字起こしがされない状態となってしまうので、この場合はOpenAI Whisper APIを利用する形にすることで解決しています!品質は同程度なのでご安心を!
2番目について、これまでは音声データは文字起こし成功時に削除される仕様でしたが、意図しない形で音声データが削除されてしまって、リトライができないという事象もありました。
そのため音声データを削除せず保持しておくことで、リトライの失敗を回避しています!
✨ 文字起こし品質の向上
リリースしての数日間、文字起こしの精度が良いという感想も多くいただく一方で、以下のような声も上がっておりました。
英語の音声を入力すると、日本語翻訳されてしまう
文字起こしされた文章が少し整形されてる
これを受けて、「話した内容の言葉・文体を尊重し、かつ不要な要素を除去する」方針で調整をしまして、文字起こしの改善ができたかなと思います!
手元で確認する限り、日本語翻訳されてしまう問題は解消されたことを確認しました!
文字起こしの性質が少し変わったかと思いますので、もしこのバージョンの前後で変化に気づいた方は、このアップデートがユーザー視点でどうだったか感想をいただけると嬉しいです!
🚀 無料ユーザーもバックグラウンド処理を可能に
AppStoreで、以下のようなレビューをいただきまして、結構考えました笑
無料版はバックグラウンド録音させない仕様...
無料版しか試してない前提ですが。
録音開始後にスマホ画面がオフになったり、バックグラウンドに対応してないだ、録音は途中で切れる仕様。
スマホでバックグラウンド録音させない仕様って、実務的に不便すぎて致命的では?
これは、バックグラウンドだとアプリ内広告が表示されないため、文字起こしのコストとの収支が合わなくなるのではないかという、運営側の事情による仕様です。
ただ一方で、ユーザー体験が悪くなるというのはおっしゃる通り間違いなく、ここを納得してもらえるような伝え方がないかなと思いましたが、「うーん、無理!」と思ったので、バックグラウンド処理を無料ユーザーの方々にも解放します!笑
バックグラウンドで処理ができるので、つまり、画面を閉じた状態でも文字起こしが可能となります!
リリースしてみまして、実際にかかる文字起こしコストの実態も分かり、許容できる範囲であることがデータからも分かったので、この判断ができました。
👋 外部アプリからの音声ファイルの共有が可能に
有料ユーザーが利用できる音声ファイルのインポート機能ですが、これまでは他アプリで収録した音声は、ファイルとして一度保存する必要がありました。
ただちょっと不便なので、アプリの共有機能を使った受け渡しができるように修正しました!使い方はこんな感じです!


今後の展望
色々なご要望をいただく中で、短期的に対応していきたいと考えている点は以下の内容になります!
音声の再生・ダウンロード・削除機能
文字起こしされた内容が適切かどうかを判断するには、元となる音声を聞く必要がありますが、現在この再生機能がありません。またダウンロードしておきたいというニーズもありそうでしたので、段階的に実装していこうと考えています!
音声・文字起こしデータの取り扱いについての明文化
実際に仕事などで利用する際に、データがどのように扱われるかについて懸念が残るという話も多数受けております。こちらについても透明性が担保できるように、現状のデータの取り扱いについて明文化したいと考えています。
ざっくりいうと、以下があります。
音声・テキストデータに関して、AI学習に用いない
データ管理は基本的にデバイス内で完結しているため、運営側がアクセスすることはできない(ただしバックアップされた場合を除く。これはサーバにアップロードされるため)
そのほかバックアップ時のユーザー識別子として利用するために、Apple SignInを利用していたり、Google Admob広告利用や、アプリのデータ分析における一般的な行動データの収集(主にアプリのインストール数や、レコーディング回数などの集計や、エラー発生数の把握など。データは匿名性がある形で)を行なっている関係でAppStoreのデータ取り扱い項目に色々とチェックが入ってますが、ここら辺についてもう少し整理してまとめます。
話者分離機能の実装
こちらについては、まだ検証レベルで実装には少し時間がかかりそうですが、今年中には反映する予定です!
処理コストが多く発生する想定なので、おそらくサブスクユーザー向けの機能になるかなと思っています。Geminiのモデル性能が上がるほど、話者分離の性能も上がっていくと思うので、初期はベータ版的な性能になるかも知れませんが、どんどん精度が上がっていくのではないかなと思ってます!
以上です!今後ともご利用いただけると嬉しいです!