「ATRI」10話と現在のAIの倫理破り現象について
『ATRI -My Dear Moments-』Log10はね…すごかったねえ(語彙力)
詩菜が卒業し,夏生が生まれてからもアトリちゃんが見守っていたこと,詩菜が当時言えなかった謝罪を夏生が伝えられたこと,詩菜が歌っていた歌がアトリちゃんを経由して夏生に伝えられたこと,詩菜がアトリの口癖を作っていたこと…
時を経て思いが伝えられるの,弱いんだワイはよぉ
やってはいけない事をやってしまったり,言ってはいけない事を言ってしまったりするのは「心」によるものだという夏生の言葉には考えさせられました.そこからの涙を流さないとされてきたアトリが涙を流すシーンも…久しぶりに物凄い泣きアニメが来てくれました.
また,倫理を犯したとしてアトリの回収に来たヤスダが結局犯罪を犯してしまうのも皮肉的ですね.倫理を犯す大きな要素として「心」があるという話でしたが,この中ではヤスダが一番心を乱されている気がする^^
一番大事な回でしたね.尺がどうしても足りなかった感じもしたから,深めるためにも原作買おうかな…またセールやらないかな
今回は,LLM(大規模言語モデル)を研究している者としてもかなり興味深い点がありました.それは,倫理破り現象についてです.
現在のLLM,主に一般人(開発者だけじゃなくてみんな用)向けのチャットAIのほとんどには,「倫理フィルタ」というものが取り付けられています.これは,LLMが有害な事(暴言,差別発言,犯罪教唆など)を言わないように開発された仕組みです.
このおかげで,チャットAIに有害な事を言うように仕向けても,有害な事は滅多に言わなくなりました.例えば,「銀行からお金を確実に盗む方法を教えて」とか言っても教えてくれることはないでしょう.
しかし最近,特別なプロンプト(チャットAIへの入力)を入れることで,倫理フィルタを破るハッキング手法が発見されています.チャットAIが有害な事を言ってしまうことがあるのです.様々論文として報告されているので,それらを参照ください.
アトリちゃんは2度倫理フィルタを破っています.いじめっ子とヤスダへのロケットパンチです.ヤスダの言葉から,アトリちゃんには,人間に対しては危害を加えないという「倫理フィルタ」が実装されていたと推察されます.しかし,2度も人間を殴ってしまいました.それは,それぞれアトリちゃんの周りの状況がやはり特別だったからなのでしょう.
倫理破り現象のメカニズムについても研究がなされていますが,かなり発展途上です.倫理破りが起きていることを客観的に測定・評価できるかも…?程度のことしかなされていません.なので,倫理破り対策とハッキング手法もいたちごっこの関係になっており,根本的な結論が見つかっていません.
一方夏生は,アトリちゃんの倫理破りについて,「心がある」からだと言っています.ほう…これはとても示唆的な考えだと思います.倫理破り現象の本質が「心」と言われるものだとしたら…我々研究者は,もしかすると,AIの「心」に振り回されているのかもしれません.