![見出し画像](https://assets.st-note.com/production/uploads/images/45704162/rectangle_large_type_2_942534f6c4de094d8a0c575f660bf338.png?width=1200)
【名探偵コナン】 蝶ネクタイ型変声機を阿笠博士に提案してみた (設計)
こんにちは〜インフラエンジニアのtamolabです!
皆さん、名探偵コナンはお好きでしょうか?私は子供の時から大好きで、映画もやテレビもコンプリートしております。コナンのアニメでほとんど毎回使われている「蝶ネクタイ型変声機」ですが、阿笠博士もバージョンアップしている描写もなくおらず、そろそろEoLなんじゃないかと思います。(笑)
キック力増強シューズやスケボーなどはバージョンアップ改良している描写がいくつかあるのですが、蝶ネクタイ型変声機についてはおそらく改良がないです!(勘違いでしたらすいません)
そこで、蝶ネクタイ型変声機の新しいバージョンを設計し、阿笠博士に提案しようかと思います!!!!
本編は4つの記事に分かれています。
【サマリー】
・蝶ネクタイ型変声機を阿笠博士に提案してみた (要件定義)
・蝶ネクタイ型変声機を阿笠博士に提案してみた (設計)
・蝶ネクタイ型変声機を阿笠博士に提案してみた (提案)
1. コンセプト
声を出さずに音声を出すにはテキスト入力からの音声出力かと思われますが、ここは蝶ネクタイを活かすために読唇術APIを使って実現したいと思います。つまり、声を発しなくても唇の動きだけで何を言おうとしているのかを把握し、スピーカーから別の人の声でそのワードを発音する方という針です。これを利用すれば、コナンくんの口元を動画でとるだけでOKで、声を発声する必要はなくなります。また、読唇術(REST API)を利用するので準リアルタイムでの利用も可能で、現場でも活用できるかと思います。
2. 読唇術について
読唇術(どくしんじゅつ)とは、声が(十分に)聞こえなくても唇の動きから発話の内容を読み取る技術を指す。実際にこういった技術を持っている人々の多くは聴覚障害者であるが、「読唇術」という呼び方は実際にこうした技術を使用する人々の間では使われておらず、通常は「読話」あるいは「口話」(ただし「口話」という概念はいわゆる「読唇術」よりも広い意味内容を含む)と呼ばれる。 (Wikipedia)
下記のgitにあるコードを、唇の動きの動画からテキストを出力するためのアルゴリズム(LipNet)とします。
また、読唇術を実現している検証動画は下記になります。この動画では人間が読唇する精度よりもマシンが判定する方が精度が高いという結論が出ております。
3. システム概要図
まず、蝶ネクタイに搭載されていた「音程調整ダイヤル」「音量調整ダイヤル」は全てソフトウェア化します(専用のスマホアプリで設定ができるようにします)よって余分な械は全て外します。必要なのは小型カメラの搭載とその動画をアップロードするためのHW基盤群です。今回はArduinoを想定しています。
現場でのユースケースは下記になります。
データの流れは下記のようになります。RDBでは音色の登録が行えますが、NTT docomoなどの音声APIを利用すれば知らない人の音色も取得できますね。
ここからは利用できるモジュールなどを紹介していきます。
【Arduino】
【カメラモジュール】
【Wifiモジュール】
【ワイヤレススピーカ】
この設計なら、コナンくんの悩みを解決できると思うのですが、いかがでしょうか?まぁスマホが出てきた時点で、「蝶ネクタイわざわざ使わずに、動画撮影とかスマホ一つでやれや!」と思うかもしれませんが、コナンくんの意向により蝶ネクタイの利用を存続させております。声を出さずにテキスト化できる時点で、医療現場など犯人逮捕以外の様々な場所で活躍できるんじゃないかと感じています。
6. キーワード
#蝶ネクタイ型変声機 #コナン #課題解決 #読唇術 #Arduino #Wifiモジュール #カメラモジュール
7. お問い合わせ
本投稿のコメントでも構いませんし、下記からお問い合わせいただいても大丈夫です。
note.tamolab@gmail.com
いいなと思ったら応援しよう!
![インフラエンジニア tamolab](https://assets.st-note.com/production/uploads/images/5593643/profile_31a07e828c8ba0b277e4b0b800b78a40.jpg?width=600&crop=1:1,smart)