見出し画像

Geminiを使った無料文字起こしアプリ「無限もじおこし」使ってみた

ケムファク(@chem_fac)と申します。化学メーカーで生産技術の仕事をしながらプラントの技術者向けに技術解説ブログを書いています。

新しい文字起こしアプリがリリースされましたので使ってみました。その名も「無限もじおこし」。

文字起こしアプリといえば、有料か時間制限付きが当たり前。しかし「無限もじおこし」は時間無制限!しかも無料!

試した結果、専門的な内容にも十分対応していました!!これは使うしかありません。試した感想を残しておきます。

制作者さんからもアプリの紹介noteが公開されています。

アプリの主な特徴

無制限の文字起こしが可能

10時間でも100時間でも時間無制限に文字起こし可能です!!制限を何も気にせず使えるのがありがたいですね。

ちなみにサブスク版もあります。

広告非表示やバックグラウンド実行、音声ファイルのインポートが追加されます。月500円、年間5,000円のプランです。

サブスクプランに含まれていることからも、無償版では音声ファイルのインポートには対応していません。マイク録音するのみです。

使いやすさを重視した機能

シンプルで直感的なインターフェースで、文字起こしをすることだけに特化したアプリだとすぐわかります。

文字起こしした内容は自動的にタイトル付けされてフォルダ形式で保存されます。

メイン画面のイメージ

文字起こししたテキストは編集・コピー・削除できるようになっています。簡単に内容修正できて、簡単に利用できる構成です。シェアボタンもついています。

フォルダごとに文字起こしでき、複数個に分割された文章を繋げたりコピーしたりも可能です。

文字起こし画面のイメージ

また単語帳機能があるため変換精度アップできます。単語とよみがなを登録するだけです。専門用語を使うときに重宝します。

なぜ無料で提供できるのか?

リリースのnote記事に収益構造について記載されていました。
驚くことに運用コスト<アプリ広告収入となっているそうです。

一番がGemini 1.5 Flash APIの活用です。文字起こしで有名なWhisper APIと比べて1/30〜1/50のコストだそうです。Geminiを使うことでの安定性は後ほど確認します。

その他にも「デバイス内での処理完結」、それに伴う「サーバー維持費用なし」、「個人開発による人件費削減」が挙げられます。
(当然、個人開発だからってタダじゃないですからね!勘違いの無いように!感謝を忘れないように!)

更にサブスクのプランで安定した収益が期待できるはずです。

使ってみた

少し長くなりましたが、ひとまずテスト……

(音声)
マイクテストです。文字起こししてください。

(文字起こし)
マイクテストです。文字起こしをお願いします。

文字起こしテスト結果

おや?早速Whisperとは異なるGeminiならではの出力が!
でも一言一句違わず文字起こししたいわけではないのでヨシッ!

化学工学:反応器に関する専門的な内容で文字起こし

生成AIを利用することから、少々専門的な文章を読んでみます。
このような専門性の高い文章の精度に期待できます。

(音声)
化学工学における反応器設計は、化学反応を効率的に進行させるための重要な工程です。最適な反応器の選択は、反応速度、熱伝達、物質移動、ならびに混合条件に大きく依存します。反応器の種類には、バッチ反応器、連続撹拌槽型反応器、および管状反応器などがあります。各反応器には独自の特徴があり、特定の反応条件に対して優位性を示します。

(文字起こし)
化学工学における反応器設計は、化学反応を効率的に進行させるための重要な工程です。最適な反応器の選択は、反応速度、熱伝達、物質移動、そして混合作業に大きく依存します。反応器の種類には、バッチ反応器、連続かくはん槽型反応器、管状反応器などがあります。それぞれの反応器は独自の特性を持ち、特定の反応条件下で有効性を発揮します。

専門的な内容に対する文字起こし結果(化学工学)

多少の単語違いはあれど、同様の意味で正しく出力してくれています。

電気計装:DCSに関する専門的な内容で文字起こし

より専門的な単語が含まれた文章で試してみます。

(音声)
分散制御システムDCSはプロセス分野ごとに制御機能を分散させ、複数の制御ループを一元的に管理することによって、システム全体の柔軟性と拡張性を高めます。このシステムは通常、オペレーターステーション、プロセスコントローラー、I/Oモジュールなどのコンポーネントで構成されます。近年のDCSでは、OPC UAやMQTTなどの標準プロトコルを採用し、IT系システムとの親和性を高めています。これにより、MESやERPとの垂直統合が容易となり、プラント全体の最適化が可能となっています。
※MESは"メス”と読みました

(文字起こし)
分散制御システム(DCS)は、プロセス分野ごとに制御機能を分散させ、複数の制御ループを一元的に管理することで、システム全体の冗長性と拡張性を高めます。このシステムは通常、オペレーターステーション、プロセスコントローラー、I/Oモジュールなどで構成されています。近年のDCSでは、OPC UAやMQTTなどの標準プロトコルを採用し、IT系システムとの親和性を高めています。そのため、MESやERPとの垂直統合が容易になり、プラント全体の最適化が可能となっています。

専門的な内容に対する文字起こし結果(電気計装)

素晴らしい!!!!!!

MESを"メス"と呼んでも問題なし、OPC UAやMQTTを認識している、I/OをIOではなくI/Oと出力するなど正しい単語を選択しています。

細かい点ですが、分散制御システムディーシーエスと読むと、分散制御システム(DCS)と略語を区別して出力される点は非常に評価が高いです。

iPhoneの文字起こし機能との比較

iPhoneでは標準で文字起こし機能がついています。フリック入力画面にあるため利便性が非常に高いです。

iPhone標準アプリのメモ帳で音声入力する場合と、無限もじおこしを使う場合とで差が出るか検証しました。

先ほど読んだ化学工学に関する文章で確認してみます。

(音声)
化学工学における反応器設計は、化学反応を効率的に進行させるための重要な工程です。最適な反応器の選択は、反応速度、熱伝達、物質移動、ならびに混合条件に大きく依存します。反応器の種類には、バッチ反応器、連続撹拌槽型反応器、および管状反応器などがあります。各反応器には独自の特徴があり、特定の反応条件に対して優位性を示します。

(文字起こし)
科学工学
における反応器設計は、化学反応を効率的に進行させるための重要な工程です。最適な反応期の選択は、反応速度、熱伝達物質移動並びに混合条件に大きく依存します。反応期の種類にはバッチ反応期連続拡販層型反応及び感情反応期等があります。各反応期には独自の特徴があり、特定の反応条件に対して優位性を示します。

iPhoneの文字起こし機能を活用した場合

かなりの認識精度があり、言葉を正確に文字起こししている様子がうかがえます。ただ、「熱伝達物質移動」や「バッチ反応期連続拡販層型反応」など単語の区切りの認識が弱い印象です。

また「連続拡販層型反応」のように、専門用語の意味を理解していない印象も受けます。

ここで無限もじおこしアプリと比較してみます。


(正しい音声内容)反応速度、熱伝達、物質移動、ならびに混合条件
(無限もじおこし)反応速度、熱伝達、物質移動、そして混合作業
(iPhone標準機能)反応速度、熱伝達物質移動並びに混合条件


(正しい音声内容)反応器の種類には、バッチ反応器、連続撹拌槽型反応器、および管状反応器などがあります。
(無限もじおこし)反応器の種類には、バッチ反応器、連続かくはん槽型反応器、管状反応器などがあります。
(iPhone標準機能)反応期の種類にはバッチ反応期連続拡販層型反応及び感情反応期等があります。


(正しい音声内容)各反応器には独自の特徴があり、特定の反応条件に対して優位性を示します。
(無限もじおこし)それぞれの反応器は独自の特性を持ち、特定の反応条件下で有効性を発揮します。
(iPhone標準機能)各反応期には独自の特徴があり、特定の反応条件に対して優位性を示します。


ちなみに、全ては書きませんが、DCSに関する文章はiPhoneでは全然正しい文章で文字起こしできませんでした。

MQTTはM2 TT、I/Oモジュールは愛用モジュール、MESはメスと出力されるような結果でした。

まとめ

Geminiを活用した「無限もじおこし」、素晴らしい完成度です。何より、文字起こし結果の修正が少ないことがありがたいです。

精度が良く、専門性の高い文章でも文脈を判断して正しい単語を選択してくれます。さらに生成AIならではの校正機能がはたらくことで、略語の()表記のような細やかな対応をした出力がされます。

多くの方にオススメしたいアプリなので是非活用ください!!

ブログ紹介

プラントの技術者向けに技術解説記事を書いています。配管、機械、電気計装、化学工学、データサイエンスなど幅広いジャンルに対応していますので興味があればご覧ください。


この記事が気に入ったらサポートをしてみませんか?