自動文字起こしアプリに関するあれこれを調べてみた
こんにちは、製造部の松田です。
文字お越しをしてくれるスマホアプリが
広く知られるようになって5年くらい経つでしょうか。
私の前職はかなりミーティングが多い職場でして、
参加者が誰で、何についてしゃべっていて、
その要点は何で、他の論点にどう関連していて…
みたいな並行処理にチャレンジしていたのですが
やはり人間はコンピューターに近づくことができず、
途中から議事録を取る手が止まってしまった経験があります。
その時の上司からは、Otterというアプリを教えてもらい、
軽い衝撃とともに「初めから使っていれば…」という
少しの無念さを感じたことを覚えています。
さて、Otterをはじめとする
自動文字起こしアプリがいろいろ出ているわけですが、
今はどんなサービスがリリースされているのか、
そもそも文字起こしの原理がどうなっているのか、
について皆さんはどこまでご存じでしょうか。
私もかれこれOtterから時が止まっている立場なので、
時代へのキャッチアップも兼ねて、
以下のポイントでリサーチを共有してみようと思います。
日本語に対応している文字起こしアプリ
2024年3月時点で、Otterは英語にしか対応していないようです。
日本語に対応しているサービスで、
代表的なものに以下が確認されます。
サービス名(運営会社/本社所在地/公式発表の最新ユーザ数)
Notta(Notta株式会社/日本/200万人)
MS Translator=旧Group Transcribe(Microsoft Corp./米国/10億人)
AutoMemo App(ソースネクスト株式会社/日本/10万アカウント)
これらのサービスを見ていて思うのは、
日本語対応している場合、他言語にも対応していることが多い
他言語に対応しているため、翻訳機能が附随している場合が多い
文字起こしした内容を要約する機能が附随している場合と、他の要約アプリと連携して補っている場合とがある
特にNottaは翻訳も要約もアプリの中でできてしまうので、
会議のウェイトが大きい会社にとても刺さる印象を受けました。
2024年3月時点でNottaのHPを見ると、
PwC JapanやSalfeforce、OMRONが利用しているらしく、
なるほどな~と思います。
文字起こしは、どのような原理で実現しているのか
音は空気の振動によるもので、
それを可視化するために波形グラフで表示する
ということは今さら述べるまでもないと思いますが、
文字起こしアプリはその波形グラフを
どのように分析してテキストに変換しているのでしょうか。
テレコミュニケーション企業である
トラスシステム株式会社の記事によると、
ということだそうで、
つまりディープラーニングを活用する方法と
音素を解析する方法の2種類があるそうです。
「音素」とは聞きなれない言葉ですね…
広辞苑によると、次のように定義されています。
「ある一つの言語で用いる音の単位で、
意味の相違をもたらす最小の単位。
類似した特徴をもつ、意味を区別しない音声の集合体。」
そのような音素を抜き出し、
事前学習した音素パターンに対応する
単語を当てはめてゆくのだそうです。
先ほどの記事の説明に戻ります。
ちなみにNottaも、
ホームページの説明からするに
この音素を解析する方法を
採用していると推察されます。
ビジネス上の利用において、情報セキュリティは大丈夫か
情報セキュリティを担保するという意味で
「CIA」を高いレベルで維持するとよく言います。
(「CIA」は最低限の要素であるともされますが)
"C"onfidentiality=機密性(許可された利用者のみアクセス可)
"I"ntegrity=完全性(情報の正確さや完全さを確保する)
"A"vailability=可用性(必要な時に必ず情報にアクセスできる)
つまり内部からのデータ漏洩を無くしたり、
外部から盗み見ようとする者の進入を防ぐだけでなく、
災害などでサーバーなどシステムに欠損を受けた場合でも、
記録したデータを取り出せる体制がある必要もあるわけです。
例えばNottaの例で見てみますと、
HTTPSを使用し、転送データを暗号化
パスワードをハッシュ処理することでの漏洩防止
クラウドサーバを使用し、データバックアップを構築
※弊社はNottaを宣伝するインセンティブは受けていません。
あくまでウェブサイトが見やすくまとめられているためです。
もちろん物事に100%ということはありませんし、
なんならサービスの枠組みがどれだけ堅牢であっても
事業者内部の従業員が不正を働くといった例も
枚挙にいとまが無いわけではありますが、
サービスによっては高いレベルの情報セキュリティが
図られていると考えることができそうです。
おわりに
ここまで記事をお読みいただきありがとうございました。
素人が、技術の進歩に追いつけの精神で書いているので、
内容に拙い点があることをご容赦ください。
最後に一言コメント(ぼやき?)なのですが、
文字起こしについて調べているななかで、
いくつかのサービス紹介サイトや記事において、
文字起こしテキストデータのことを「議事録」
と言っているページを発見しました。
個人的には、
文字起こしデータ=発言記録
議事録=会議で提示された意味合いのサマリー
だと捉えており、
両者は似て非なるものと考えています。
単なる表現のはなしですが、
その点がモヤモヤしたという
読者の皆さんにとって益のない話です…m(_ _)m
次回は、文字起こしアプリに関連して、
要約アプリについて時代にキャッチアップしてゆきます!
◆建築資材の製造外注・OEMは北陸マテリアル株式会社に!◆
大サイズ平面材(パネル等)の異種どうし貼り合わせ加工、
および切断加工を得意としています。
▼▼▼その他の記事も是非!▼▼▼
この記事が気に入ったらサポートをしてみませんか?