見出し画像

AI随想(1) AIとノモスの関係

Sentenced by Algorithm

When Machines Can Be Judge, Jury, and Executioner: Justice in the Age of Artificial Intelligence

by Katherine B. Forrest

World Scientific, 134 pp., 2021

さて、ジェド・S・ラコフ(Jed S. Rakoff) ニューヨーク州南部地区の米国連邦地裁判事。)がNew York Review of Books June 10, 2021に書いた上記の書物の書評をまとめる形で議論を進めていきたい。

ChatGPTがMBAの試験に通ったとか弁護士試験に通ったとか医者の資格試験に合格したといったニュースが報告されているが、大きな誤解をしていないか?もともと近代社会の資格制度において、試されるのは知識と論理的推論である。人間が苦手でコンピュータは得意。したがって30年くらい前からAIの利用は盛んで、それなりの効果がでていた。専門家というと人間の中でも上等だという思いがあり、その専門家の仕事に近いことをするAIというとなんだかスーパーな気持ちがするだろう。でもむしろそちらの方がデータベースと論理学なので処理は楽なのだ。MBAはもっと緩いので、基本エクセルを上手に使うみたいなところがきもで、そこはコンピュータは大好きで、従ってChatGPTも大好きだ。30年も進化しているので、実はかなり使われている。この本は昨年の今頃書評で評判になっていて面白そうなので、少しまえに購入した本を引っ張り出してきた。



さて、以下、ジェド・S・ラコフの書評を要約しておこう。

Forrestの主張は再犯を予測し、刑期を決定するためのコンピューター・プログラムには、高いエラー率、秘密の設計、そして実証可能な人種的偏見があるということだ。

現在アメリカの法廷では将来犯罪を犯す可能性を予測するアルゴリズムが使われている。最もよく使われているのは、ノースポイント社(Equivantの名前でビジネスをしている)が作ったCOMPAS(Correctional Offender Management Profiling for Alternative Sanctions)という民間の製品である。ビジネスにおける競争上の理由から、COMPASの設計はほとんど秘密にされている。そしてやっかいなことに、この本の著者のForrestによれば、COMPASおよび類似のコンピュータープログラムは、30〜40パーセントという高いエラー率で、被告人の将来における犯罪を犯すという予測を間違えているという。これは言い換えると、これらのアルゴリズムが再犯を予測した10人の被告のうち、3~4人は再犯をしないということである。もちろん人間の裁判官の方が再犯率の予測に優れているかどうかは誰にもわからない。だが、ある研究によれば、無作為に抽出した素人でさえ、最も頻繁に使われるアルゴリズムと同程度の予測をするという)。問題は、このようなプログラムを使うことで、このような評価に科学的な体裁が整えられ正しいとされてしまうことにある。

裁判官はアルゴリズムが秘密にされていて、人種的偏向が明らかなでエラー率のコンピュータアルゴリズムの予測にしたがって、被告の刑期を延長するのだろうか?驚いたことに多くの州は現在「イエス」と答えているという。『When Machines Can Be Judge, Jury, and Executioner』の著者は元連邦裁判官のキャサリン・フォレスト(Katherine Forrest)であるが、これはこれは不公平かつ不合理であると述べている。

「判決を下す際に考慮すべき要素」を定めた主要な連邦法(18 U.S.C. sec. 3553、1984年制定)では、「裁判所は、科されるべき特定の判決を決定するに当たり、被告人のさらなる犯罪から公衆を保護するために、科される判決の必要性を・・・考慮しなければならない」と定めている。Forrestは在任中(厳しい判決を下すことで知られていたという)、この法律に従って、自分の判決の根拠の一部を、「その人物の...再犯の可能性と、再犯がどの程度コミュニティや周囲の人々に害を及ぼすかについての個人的評価」においていたという。彼女は、その評価が正確であったかどうかは、現在でもわからないがと述べた後に、法律が将来のリスクの予測を要求するならば、優れた人工知能(AI)は理論的には裁判官がそうした予測をするのを助けることができると結論付けている。

ところが、この目的のために使用されている現在の裁判所が使うAIには欠陥があり、正確さと公正さの幻想しか提供できないとForrestは主張する。裁判官は最近まで、被告人の「更なる犯罪」の可能性を単に被告の年齢と犯罪歴に注目して判断していたという。過去に何度も犯罪を犯していれば、将来さらに犯罪を犯す可能性が高いと推定され、その犯罪に対して認められている法定最高刑の期間だけ収監されることになる。この判断に人工知能をつかおうというわけだ。

「人工知能」は膨大な量のデータを精査するだけでなく、分析したデータに基づいて処理の進め方を調整する仕組みを持つ。これはアルゴリズムと呼ばれ、データから何を「学び」、それにどう反応するかがあらかじめプログラムされた命令群つまりアルゴリズムによって決定される。

再犯を予測するプログラムの場合、科学的な研究に基づいてアルゴリズムを作られることはなく、設計者主観的に要素を選択している。選択がビジネス上の理由で公開されておらずフォレストが言うように「ブラックボックス化」しいる。そして、AIからの答えは、実際の判決として不可思議なものになってしまう。

さらに、Forrestは指摘する。これらのプログラムは「黒人の被告人の再犯率と暴力の予測において、白人の被告人より著しく劣っている」のである。なぜそうなのかについては解決はかなり困難であるという。というのも議論があるところだが、これらのプログラムの設計の多くが秘密にされているからだ。しかし、有色人種の被告人の場合、AIが下す判決の信頼性の低さは議論の余地がないという。AIを導入することで、刑事司法制度の人種差別的傾向を助長する可能性が高いと著者は述べる。

こうしたアルゴリズムの量刑への利用を取り上げた代表的な判例は、ウィスコンシン州最高裁判所の2016年判決「State v. Loomis」である。前科のあるEric Loomisは、車上荒らしの運転手として起訴されたが、彼は一貫してその容疑を否認していた。州は、彼が、所有者の同意なしに車両を運転したことと、交通警察から逃げようとしたことという、はるかに軽い2つの罪について有罪を認める司法取引を行うことを認めた。しかし、州は、ルーミスが車上荒らしの運転手であったことを示すと信じる証拠を判決判事に提示する権利を留保した。そして裁判官は、裁判所の保護観察所が作成した現況調査報告書も提出され、COMPASアルゴリズムを用いて、ルーミスは将来暴力犯罪を起こす危険性が高いと評価した。

判決で、裁判官はこう述べた。

あなたはCOMPAS評価を通じて、地域社会に対して高いリスクを持つ個人として認識されています。さまざまな要因を考慮すると...利用されたリスク評価ツールは、あなたが再犯するリスクが極めて高いことを示唆しています。

そして判事は、ルーミスが有罪を認めた2つの非暴力犯罪について、合わせて6年の禁固刑を言い渡した。

控訴審では、まず中間裁判所へ、次にウィスコンシン州最高裁判所へ、ルーミスは、州、保護観察所、判決裁判所が、COMPASによる自分の再犯度数の算出方法について最も基本的な情報さえ提供することを拒否したことに議論の焦点を合わせた。これに対し、ウィスコンシン州最高裁は次のように述べた。

COMPASの開発元であるNorthpointe, Inc.は、COMPASを独自の機器であり、企業秘密であると考えている。従って、リスクスコアがどのように決定され、どのように因子が重んじられるかを開示していない。ルーミスは、COMPASがこの情報を開示しないので、彼は、[量刑]裁判所が判決時に考慮した情報を否定されたと主張している・・・。[しかし、COMPASのアルゴリズムがどのようにリスクを計算するかについて、Loomisは検討し異議を唱えることはできないが、少なくとも、[裁判官への]報告書に記載された結果のリスクスコアについては、検討し異議を唱えることは可能である。

COMPAS は複数ページのユーザーガイドを提供しているが、そのガイドには「どのような機械学習に基づいているか、そのアルゴリズム、正確な入力、重み付け、使用するデータセットが開示されていない」と Forrest は指摘している。そして、ルーミスのケースが示すように、COMPASのメーカーは、そのような詳細な情報を、法的に保護された「企業秘密」であるという理由で、開示することに抵抗している。その結果、我々はCOMPASの設計者について、どのような選択をしたか、COMPASの信頼性を確立するためにどのようなテストが行われたか、その方法はどの程度独立して精査されたか、そのエラーレートは何か、その報告エラーレートは正確か、それが一貫した基準と方法を採用しているか、それが科学界で一般的に受け入れられているかどうかをほとんど知らないのである。

さらに、COMPASのアルゴリズムのデザインについて分かっていることは、安心とは程遠いものだという。ノースポイント社によれば、COMPASは最終的に、「社会学習」理論、「サブカルチャー」理論、「コントロール/拘束」理論、「犯罪機会」理論、「社会歪み」理論といった、特定の社会学の再犯防止理論に基づいているという。社会学文献を簡単にレビューしただけでも、これらの理論の多くが議論を呼んでいること、ほとんどがわずかな検証しか行われておらず、その結果もまちまちであること、そしていくつかの理論が互いに矛盾していることがわかる。実際、これらの理論に関するいくつかの専門家によるレビューによれば、これらの理論は予期せぬ結果を説明するために常に改訂されている。これは、これらの理論が法的許容性の基準を満たすには十分な信頼性がないことを示す典型的な例である。

また、COMPASの設計者が、データセットの選択、データセットへのアルゴリズム対応などにおいて、これらの理論のどれを適用したかについての手がかりも与えられていない。しかし、COMPAS自身が公開することを選択した検証研究でさえ、将来の暴力的行動の予測における29〜37パーセントのエラー率と、将来の非暴力的再犯の予測における27〜31パーセントのエラー率を示している。言い換えれば、COMPASの開示(これは、COMPASに有利になるように偏っているかもしれません)によれば、COMPASは約3分の1を間違っていることになる。

さらに悪いことに、COMPASは、白人の被告よりも黒人の被告に対して、より頻繁に間違いを犯している。ルーミスの裁判所も、そう指摘せざるを得なかった。

フロリダ州ブロワード郡の1万人の刑事被告人のデータに基づくCOMPASの再犯スコアに関する最近の分析では、黒人被告は「再犯のリスクが高いと誤って判断される可能性が白人被告よりもはるかに高かった」と結論づけている。同様に、白人の被告人は、黒人の被告人よりも、誤って低リスクと判定される可能性が高かった。

もちろん、COMPASがそのアルゴリズムの設計方法を秘密にしている限り、なぜそうなのかを判断することは不可能である。Forrestは、本の1章を割いてこの議論を詳細に分析し、最終的に "COMPASや他のAI評価ツールが、黒人と白人の犯罪者に異なる結果をもたらすということは、もはや議論の余地はない "と結論づけている。しかし、このことでウィスコンシン州の最高裁判所や、それ以降の他の裁判所が、COMPASのスコアを裁判官が量刑の要素として使用することを認めることを止めることはなかった。

もちろん、COMPAS を使用せずに再犯罪を評価する裁判官が、COMPAS よりもさらに頻繁に間違えるのであれば、COMPAS の使用はまだ意味あると主張することができるかもしれない。しかし、Julia Dressel と Hany Farid (ダートマス大学のコンピュータサイエンスの教授) の研究によると、そうではないようだ。この研究で、人気のあるオンラインウェブサイトから無作為に抽出した日常生活者のサンプルが、"再犯の予測においてCOMPASと同じくらい正確で公平である "ことを示している。また、COMPASが使用しているデータベースは、大部分が秘密に包まれているが、この研究は、「COMPASが予測をするために最大137の特徴を使用するかもしれないが、同じ予測精度は、たった2つの特徴、すなわち年齢と過去の犯罪歴で達成できる」ことも発見した。裁判官が従来再犯の予測に使用してきたものと同じ二つの特徴である。

COMPASやその他の再犯予測アルゴリズムは、(連邦裁判所ではなく)主に州裁判所で使用されている。これは、全米州立裁判所センターが2015年以降、保釈や量刑の決定をより「データ駆動型」にするために、こうした利用を奨励していることも理由の一つだが、こうしたツールが正確で偏りがなく、信頼できるかどうかは、詳しく検討されていない。

連邦政府は、PCRA(Post Conviction Risk Assessment)と呼ばれるアルゴリズムを、執行猶予期間中にどの被告人を特別な監視の対象とするかを決定する目的のために使用している。Forrestは、PCRAの研究は、現在のアルゴリズム設計が人種間で便益の不一致をもたらしていると述べる。再犯の予測精度は黒人犯罪者よりも白人犯罪者の方が高いのだ。とすると、なぜ裁判所はいまだにAIによる予測を判決につかっているのだろうか?

さて、この書評の結論だが英語でまず引用しておく。

More broadly, the fundamental question remains: Even if these algorithms could be made much more accurate and less biased than they currently are, should they be used in the criminal justice system in determining whom to lock up and for how long? My own view is that increasing a defendant’s sentence of imprisonment on the basis of hypothesized future crimes is fundamentally unfair. But if “incapacitation” should be taken into consideration, I worry that much better algorithms than we currently have will perversely cause judges to place undue emphasis on incapacitation, at the expense of alternatives to prison that might serve to make defendants better citizens and less likely to commit future crimes.

基本的な問題は未解決である。アルゴリズムがいまのものよりも正確で人種的なバイアスが解決していたとしても、刑事裁判において、誰をどのくらい長く刑務所に入れておくかの判断に使うべきではない。未来に起こすかもしれない犯罪の可能性を仮説として収監期間を延ばすのは根本的にフェアネスからの視点からうけいれることはできない。現在よりもはるかに優れたアルゴリズムによって、裁判官が“incapacitation” (刑務所の外で暮らす資格を剥奪する)方法を過度に重視するようになることを懸念している。というのもこうしたアルゴリズムによる判断が、被告人をより良い市民にし、将来犯罪を犯す可能性を低くするために役立つかもしれない刑務所の代替手段(刑務所の外でくらすこと)を犠牲にしてしまうことを憂慮するからである。

ということである。これはかなり本質を突いているね。量刑を決めることが裁判官の目的ではなくて、犯罪を犯した者を良き市民に構成させることが裁判官の役割だ、としているからだ。まさに英米法の基本にのっとった裁判への態度と言える。ハイエクが述べたように、徳のあるノモスのテシスが実行される。量刑を決定するAIはこの徳の下で設計され書かれなくてはいけない。犯した犯罪にたいして与えられる量刑を延長する理由を何らかのアルゴリズムで決定する必要はないのである。

これはかなり本質を突いてくる議論になるな。英米法におけるリーガルマインドの話だ。リーガルマインドは人間が持つ。ここはノモスだ。法律はAIで整理されて実行されて良い。ここはテシスになる。判断をするのはリーガルマインドをもった人間である。
(完)




いいなと思ったら応援しよう!