![見出し画像](https://assets.st-note.com/production/uploads/images/108009731/rectangle_large_type_2_717ed557bd0ff687c37fdf8fe7312b13.jpeg?width=1200)
なぜ、あなたは生成AIのフェイクに騙されてしまうのか?
『だれにでもわかるNFTの解説書』の著者であり、密かに絵本作家でもあり、絵本のプロモーション動画をAIに作ってもらった足立明穂ですw
パンダ絵本のプロモーション動画wwwhttps://t.co/97U2ficQUC pic.twitter.com/qAgYOR2rLn
— あき@足立明穂『だれにでもわかるNFTの解説書』著者、ITコンサルタント (@TanishiNishi) June 10, 2023
ほんと、生成AIが、テキストも画像も動画も音声も作り出してくれるので、すごい時代になりました。
生成AIのすごいところは、「人間の言葉で指示できるようになったこと」。
これまでは、どんなにすごいツールが出てきても、それなりにスキルを身に付けないと使えませんでした。
車にしても、今は、運転免許を取得しないと運転できないですよね。
レベル4の自動運転カーも日本で使われ始めているので、運転免許なんてなくても、車に1人で乗れる、小さい子供でも乗れる、いや、場合によっては、指示しておけば犬だけ乗ってることだってありえるのです!!
そりゃ、こんなの簡単に作れるんだから、フェイク動画で騙されるわ・・・https://t.co/1D7N025LO4 pic.twitter.com/99Utz6XAGB
— あき@足立明穂『だれにでもわかるNFTの解説書』著者、ITコンサルタント (@TanishiNishi) June 12, 2023
ただ、単純に生成AIがすごくなったから、人間は簡単にフェイクに騙されるのでしょうか?
ちょっと違うのではないかな?って思ったことがあるので、その辺の話をしてみましょう。
電話で聞いているのは、相手の「声」ですか?
「はぁ? 何を言ってるんだ??」って思うかもしれませんが、電話しているときに聞こえてくる相手の声、本当に相手の「声」なのでしょうか?
なんとなく、マイクで相手の声の振動を電気の強弱に変えて、んでもって、スピーカーで空気の振動にして伝えているって思ってませんか?
昔懐かしい糸電話の「糸」のところが電気に変わっただけで、基本的には同じなんだと思ってますよね?
ところが、どっこい、デジタル化されたときに大変革が起きているのです!!
「それって、mp3とかと同じで、アナログな音の振動の波を細かくしてデジタルの数値に置き換えているのでは?」
さすがです! mp3とか知っている人は、そういうことを言うのかと思います。
えと、簡単に図式にすると、こんな感じですよね。
赤の波線がアナログの音の波形、青の四角がデジタルで、タテに青の四角の数で数値化している。
![](https://assets.st-note.com/img/1686535853989-taDmtbOm3K.png)
で、アナログからデジタルにするときは、青の四角の数で伝えて、受け取った側は、そこから赤のアナログの波を想定してアナログの音に戻すって話です。
これと同じように思ってしまいますが、実際の携帯電話は、全然違う。
元の人の声に近づけようとすればするほど、青の四角を小さくしていく必要があります。
青の四角を小さくすればするほど、アナログの音に近くなるのですが、データ量がどんどん大きくなってしまいます。
そうなると、とてもじゃないけど、携帯電話の通信速度では送ることができないし、そもそも、マイクで拾った音声をデジタルにするのに高速計算できるチップが必要になり、受け取った方も、それをアナログに戻すために性能のいいチップが必要になります。
携帯電話がすごく高額になるばかりか、消費電力も大きくなるので、10分通話したら充電・・・ みたいなことにwww
では、どうするか?
声帯模写、声真似芸人の登場!w
意味不明な見出しにしましたが(^^;)、これの種明かしをします。
携帯電話には、「声色の辞書」のようなものが入っていて、野太い声から、甲高い声まで、さまざまな声のデータが登録された辞書のようなものが入っています。
この中から、似たような声を探し出し、それによって、声色のデータを伝えれば、かなり情報が圧縮できるのです。
ちょっとした頭の体操をしてみましょう。
部屋が3つあって、それぞれ、1号室、2号室、3号室としましょう。
1号室に岸田総理、3号室には、ゆうちゃみが居ます。
そして、その間の2号室には、何百人もの著名人のモノマネができる芸人が入ってると思ってください(って、思えるか?ww)。
で、隣の部屋の間には、細いパイプで繋がれていて、声が届きます。
![](https://assets.st-note.com/img/1686570502593-XtXBU3bb5H.png?width=1200)
そして、1号室の岸田総理が、「マイナンバーカード問題については、可及的速やかに善処することを検討したいと前向きに考えている所存でございます。」と話します。
その言葉は、2号室のスーパー・モノマネ芸人が聞いて、岸田総理そっくりの声で、3号室の ゆうちゃみに伝えます。
ゆうちゃみは、「え? 下級性がすみっこで、全裸になった?」とびっくりします(いや、しないけどw)。
それを聞いた、2号室のスーパー・モノマネ芸人が、ゆうちゃみそっくりの声で、岸田総理に伝えますw
とまあ、こんな感じです(いや、ぜんぜん、分からんやろ!w)。
ともかく、お伝えしたいことは、携帯電話は、本人の声ではなく、「そっくりな声」を作って伝えているのです。
最近は、ほとんどないですが、20年ほど前の携帯電話(ガラケーねw)のころ、極まれに、相手の声が変化するのを体験したことが何度かあります。
女性の声が男性のようになったり、オッサンの声が高い声になるようなことがありました。それをIT屋の私が調べないはずがありませんw
で、「本人の声が届いているのではない」ということを知ったのです。
では、このことが、生成AIに騙されやすい人間というのと何が関係するのでしょうか?
テレワークが増え、直接会うことが少なくなっているからこそ、「本当」を知らない
以前から、スマホ中毒のように、スマホから情報収集をする人たちが増えています。
テレビも、地上波デジタルになってから、アナログと違ってデジタル化された音声や映像を見ています。
とにもかくにも、デジタル化された情報に接することがけた違いに増えている。
となると、直接伝わっていない情報、デジタル化することで、削ぎ落されている情報があることに気が付いていないことも多いのですよね。
どんなに8Kだの、ハイレゾだのといって、高精細・高音質になったところで、「リアル」とは違う。
リアルに含まれている「ノイズ」が伝わらないんですよね。
リアルでは、五感が総動員されて情報収集する。これは、生物として埋め込まれた能力なので、人間だけでなく、生物の基本機能。
なのに、人間は、ノイズのそぎ落とされた「純水な映像」、「純粋な音」を受け入れ、それがリアルだと思っている。
その結果、デジタル化されたものと、リアルとの区別が分からなくなってきてるのですよね。
本来、画面に映っている動画を見ているのと、リアルに接している人とは、全く違うのを無意識に感じ取っています。
これは、赤ちゃんの脳波を測定して分かったことなのですが、目の前で人が人形劇をやるのと、テレビの映像で見せるのとでは、脳の活動が全然違うのです。
赤ちゃんの表情などは変わらないのですが、リアルに見ている方が活発に脳が働いているのです。
ここからは、私の仮説なのですが、スマホで動画や音声などに接していると、脳が活発に動作しないのではないかと思います。
でもって、直接人と接したときに、さまざまな情報を受け取る訓練がなされてていないと、リアルであっても、コンピュータを介して会っても、同じようにしか情報を受け取れない。
なんか、そんな状態になるのではないかって思っています。
その結果・・・・
フェイク動画に騙される脳が出来上がるのではないかって思ってしまいます。リアルだろうと、バーチャルだろうと同じ程度にしか情報が得られない。
リアルとバーチャルの違いを分かっている人は、「まてよ・・ なんか変じゃないか?」って気になるのではないのかと思います。
ドラマのリアリティがなくなってる?
これは、最近見た、あるドラマの1シーンなのですが、そこで名刺交換していました。
そのときの名刺交換がリアリティがなかったのです。クライアント企業の会長の名刺をもらっていながら、相手が知っていたということで、名刺を渡さない。
いあいあ、それはあり得ないでしょ?? それも、横にその企業の他の社員もいるのに、クライアントから名刺をもらったなら、名刺を渡すのは言わなくてもやるべきこと。
なんか、おかしいのですよね。
そういうリアリティが、だんだん失われています。
こういうちょっとしたリアリティのなさが、フェイク動画を見ても違和感を感じなくなってしまうような気がしています。
この3年間で、人と会ったり、人の多い場所に行くといったことがなくなっているので、人との接し方や、逆に避け方など、ちょっとした行動が分からなくなってる、忘れてしまっているのではないでしょうか?
単に私の勘違いであればいいのですが・・・w