【情報リテラシー論12】

こんにちは!猫まんと申します!
このブログは長岡造形大学 情報リテラシー論の講義レポート用ブログです。
当ブログでは、インターネットに弱い私が情報リテラシーについて学び、感じたことや疑問に思ったことをまとめていきます。

講義を担当してくださる先生は

イーンスパイア株式会社代表取締役
ネットビジネス・アナリスト

横田秀珠先生 です。

先生のブログがあるのでぜひ↓


今回はラジオと音声技術の衰退の未来性について学びました。音声技術にの向上によってラジオになり変わっていくAI技術。私は特にAIによる音声技術に驚きました。私が思っているよりも早く、そこには少し恐ろしさもあります。今回はそんなAI技術に置いていかれないよう、歴史や今活用されているサービスについて調べました。


AI音声技術の歴史

1950年代
・初期の音声認識研究がスタート。ベル研究所で「オーディオ符号化」の技術が開発されました。この時代の技術は非常に限定的で、基本的な音声波形の分析にとどまりました。
オーディオ符号化」: 簡単にいうとアナログの音声信号をデジタル符号化して、音声の性質を利用してデータ圧縮を行う技術のことです。


1960年代
・IBMの「Shoebox」: 世界初の音声認識システムで、10単語を認識可能。数字と基本的な算術操作(加算や減算)に対応しました。


1970年代
・音声認識アルゴリズムの進化が進み、隠れマルコフモデル(HMM)が開発。これにより、単語だけでなく、より複雑な音声認識が可能に。  

・DARPA(アメリカ国防高等研究計画局)のプロジェクトで、初期の大規模音声認識システムが研究されました。


1980年代
・コンピュータの処理能力向上により、実用的な音声認識技術が登場。電話での音声自動応答システム(IVR)が開発され、商業利用が始まります。  
・フジツーやパナソニックなどの企業が日本語対応の音声認識技術を発表。


1990年代
・ニューラルネットワーク(NN)が音声技術に応用され、認識精度が向上。  
Dragon NaturallySpeaking (1997年) : 初の消費者向け音声認識ソフト。話された言葉を即座にテキスト化できる画期的な技術、音声合成も発展し、合成音声による自動案内システムが普及。


2000年代
・インターネットとクラウド技術の普及で、音声認識サービスがオンライン化。  

Google Voice Search(2008年): スマートフォンでの音声検索機能を提供。  

・Siri
(2011年): Appleがスマートフォン向けAI音声アシスタントをリリース。会話型のAI技術の先駆けとなります。


・2010年代
・ディープラーニングの進化により、音声認識と合成の精度が飛躍的に向上。  
ディープラーニング(深層学習): コンピュータが大量のデータを解析して特徴を抽出する技術。

Google Assistant(2016年): Google
Homeと連携し、スマートホーム機能の中核を担う。  

・音声技術がエンターテインメント分野(VTuberやポッドキャスト)や医療分野に応用され始めます。


・2020年代以降
・音声生成技術が進化し、自然な音声の生成が可能に。  
・VTuberとAI活用
(サービスの所で紹介します。)
・スマートスピーカーやウェアラブルデバイスへの統合で、生活のあらゆる場面で音声技術が利用されるようになりました。

AI音声技術を活用した主なサービス

1. スマートスピーカー
・Amazon Echo、Google Nestなど。音声認識を活用した家庭向けアシスタント。

2. カスタマーサービス
・コールセンターの自動応答システム(IVR)やAIチャットボット。カスタマーサポートを効率化。

3. 医療分野
・聴覚障害者向け字幕生成や患者の発話訓練支援システム。  

4. VTuber(バーチャルYouTuber)
VTuber制作でも、AI音声生成技術が利用されているケースもあります。

リアルタイム会話可能なAI VTuber
・VOICEVOX
合成音声でキャラクターに声を与えるツール
・Creative Reality Studio(AIで画像を動かしてリアルなアバターを生成可能

5. エンタメと創作分野
・音声を変える「Voice.ai」などで特定の声(有名人やキャラクター)を模倣。ポッドキャストや映画制作にも活用されています。

今回はここまで。それではまた、次の講義レポーとで。

いいなと思ったら応援しよう!