ローカル環境で使える Pythonによる議事録生成アプリ(Mac版)
はじめに
リンクに飛んでいただきありがとうございます!大斗(ひろと)と申します!
現在、大学4年生で生成AIを使った様々なことに取り組んでいます。
Xでの投稿・情報発信もしているのでぜひフォローよろしくお願いします!
今回は、 Pythonで開発を行ったローカル環境で使える議事録生成アプリについての記事になります。
議事録生成ツールに関しては、以前もnoteを書きました。
このツールはGASとGeminiで実装する議事録生成ツールの解説記事でした。
このツールもだいぶ好評で、たくさんの方にnoteをご購入していただきました!
ただこちらのツールはGoogle ドライブに音声ファイルをアップロードする必要があったり議事録もGoogle ドキュメントで出てきたりと…
セキュリティの観点から職場で公に使用できない。
みたいな方も多いのではないかと思います。
処理速度にも改善の余地が残るツールでした。
時間が経つにつれてどんどんと改善したい気持ちが強くなる中で、利便性で言ったらデスクトップアプリを用いることが一番なのではないかという結論に。
そこで開発に至ったのが今回の経緯です。
処理速度も大幅に改善されています!
(10倍どころじゃない気がします…)
この記事を読めばどんなアプリかを知ることができるので、ぜひ最後まで読んでみてください!
また、このアプリの開発背景を全て記したnoteも近日中に公開予定です!
そちらのnoteでは、
アプリ開発初心者がどのような手順で開発に取り組むべきか
開発を行う上での注意点と落とし穴
仮想環境の構築の仕方
Pythonをappファイル化するための方法
等がわかります。
興味がある方は是非一度こちらも覗いてみてください!
機能紹介
アプリの実際の挙動を録画したポストで大体のことはわかると思いますが、ざっくりと機能を解説していきます。
メイン画面はこちら↓
このアプリの処理の流れは以下の通りです。
音声ファイルを選択するボタンでアップロードする音声ファイルを選択
音声ファイルを処理するボタンを選択
音声ファイルの処理が開始して、指定したフォルダに議事録生成に必要な情報が抽出されたExcelファイルが自動で生成される
必要に応じてExcelファイルを修正する
Excelファイルを処理するボタンで3.4のExcelファイルを選択する
Excelファイルを処理するボタンを押せば議事録のwordファイルが完成!
音声ファイルの処理から議事録生成まで、全てこの画面で完結するのがポイントです。
処理できる音声ファイルの種類は3つ。
・mp3
・m4a
・wav
です。
そのため、アプリの利用に必要なのは会議の音声ファイルだけ。
それがあれば簡単に議事録の生成が行えます。
簡単に裏側の説明をすると…
ローカルに保存されている音声ファイルをアップロードして、その音声ファイルをGemini APIを使用して文字起こしをし、情報の抽出を行います。
そして抽出した情報をもとにExcelファイルが生成され、指定したフォルダに保存されます。
その後、Excelファイルの内容をチェックしましょう。
文字起こし結果に不備があったりしたらここで微調整を行います。
会議名や参加者等は手入力する形になっているのでここで入力していきます。
修正・確認が終わったら上書き保存をして、あとはExcelファイルを処理するだけ。
Excelから情報を抽出してアプリに含まれているテンプレートに入れ込む形で爆速で議事録のwordファイルが生成されます!!!
これがこのアプリの主な機能になります。
詳しい処理の流れは開発工程を記したnoteで公開します!
特徴紹介
次に、このツールの特徴についてお話しします。
利便性の向上とセキュリティ懸念の緩和
まずは利便性。
多くの議事録生成ツールがある他、GPTなどに音声ファイルを渡してもある程度のクオリティのものは出てきますが、
いちいちサイトを開いたり、出力結果を修正してWordにまとめて…
意外と手間がかかる作業になります。
複数のツールを使用するのも面倒くさいですね。
そこをこのアプリでは全てデスクトップでサラッと終わらすことができます。
また、議事録を出力するフォルダを指定することができるのもポイントです。
ダウンロードフォルダからいちいち移動させるのではなく、議事録専用フォルダを作ってしまえばそこに全てまとめることができます。
先ほども言及しましたが、ローカルで基本的に完結するというのは便利さだけでなく、セキュリティ面での懸念緩和にもつながります。
出力ファイルをどこかのサーバー等に保存する必要はありません!出力ファイルは全てローカルに保存されます。
議事録作成までの速さ
このツールの1番の売りは処理速度の速さだと思います。
実績値として2時間半の音声ファイルが5分で議事録生成までいけます。
APIキーを使用してGeminiを叩いているのでAPIエラーやサーバーエラー等で必要に応じてリトライが生じるため多少の誤差はありますが、それでも数分以内に処理が終わります。
一般的にそこまでの長さの音声ファイルを処理することもないと思うので、それでしたら3分ほどで処理が終わるかなと思います。
処理にかかる時間は音声ファイルのサイズによって変わります。
また、圧縮されているファイルは圧縮されていない同程度のファイルサイズのものより多少時間がかかります。
そしてこの数分も別の作業をしていればOK。
勝手に処理が進んでいきます。
Excelファイルが作成されたらポップアップが表示されるのでそれを待ちましょう。
Dockでアプリのアイコンも跳ねてくれるはずです。(笑)
文字起こしプロンプトの修正
このアプリでは、文字起こしのプロンプトの修正を行うことができます。
それの何がいいの?
そう思われる方もいると思いますが、文字起こしプロンプトを修正可能なことで、基本情報を入れることができます。
以前のnoteで公開したGAS×Geminiのツールでも採用したこの基本情報ですが、便利なものです。
一般的にLLMが行う文字起こしでは、
・会社名
・人物名
・商品名
などの固有名詞がうまく文字起こしされないと言った問題があります。
間違って認識されていたり、音は合っていても漢字が違ったりと。
たまにしか扱わないものだったらいいですが、自分の会社名であったり頻繁に会議に参加する人の名前まで毎回のように間違われてしまうとストレスが溜まります。
こういった問題はしょうがないものとして扱われがちですが、多少は対策を行うことができるんです!
それが基本情報としてあらかじめプロンプトに入れておくことです。
あらかじめ入れた情報を注意して文字起こしを行わせることで、何もしないよりは正確に文字起こしをしてくれる可能性が高まります。
デフォルトのプロンプトはこちらですが…
以下のように変更することができるので、固有名詞などを注意して文字起こしさせることができます!
以上がこのアプリの特徴になります。
使い方
実際のアプリの使い方は、こちらのNotion webページで全て公開しています!
アプリに使い方を埋め込みたいと思った時にwebページにしてしまえと思い、公開しました。
わからないことがあったらXのDMまでお願いします!
アプリのご案内
前提として、このアプリの動作保証は最新のmac OS(Sepuoia 15.0.1 11/6時点)です。
(OSのバージョンが古いと動作しない可能性があります。)
Windowsバージョンの開発も検討しています…!
その上でここまで読んで
このアプリ実際に利用したい
そんな方がいたらぜひご利用していただきたいです!
末尾にある有料エリアでこのアプリのGithubリポジトリを紹介しているため、そこからzipファイルをダウンロードして展開、アプリを取り出すことでご利用いただけます。
また、一緒にコード等もpushしているので、ご購入いただいた方は中身もご覧いただけます。
別で公開する開発工程のnoteを読んでいただければご自身でカスタマイズも可能です!(コードが読めたり仕組みがわかる方はそれがなくても)
正直かかった労力や自負している性能的なものを考えるともう少し価格を上げたい気持ちもあるのですが…笑
バグが発生する可能性も否めないですし、完璧です!と言えるものでは全くないのでこの価格設定にしています。
エラーやバグ等をDMでご報告いただければ時間が許す限り徹底的にサポートをしていきます!
バージョンアップ等にも対応していくつもりです。
最初の自作アプリとして皆さんと一緒にいいものにしていけたらいいな、という気持ちです。
最後に
ここまで読んでいただきありがとうございます!
今回は、Pythonで開発を行ったローカル環境で使える議事録生成アプリについて解説していきました。
既存の議事録生成アプリの不便さや物足りなさを補ったアプリを開発したつもりです。
この記事が良い!と思ったら スキやポストへのコメントお願いします!
これについてまとめた記事が欲しい、、
そんな要望も大歓迎です!
何かありましたら以下のアカウントまでお願いします!
https://x.com/petit_hiroto
(記事の内容に間違い等あった場合、情報が更新されず古いままになっている場合もぜひご連絡いただけますと幸いです。)
これからもXやnoteでGASやRunway、他の生成AIに関する発信を行っていくので、ぜひフォローをお願いします!
この先でアプリを実際にご利用いただけます!!
ここから先は
この記事が気に入ったらチップで応援してみませんか?