
AIで犯罪をシミュレート!? 強化学習がひらく新たな犯罪予測モデルの可能性
犯罪予防のために「AIを使う」――SF映画のような話が現実になる日も、そう遠くないのかもしれません。今回ご紹介する論文は、強化学習(Reinforcement Learning)を使って犯罪者の行動をコンピュータ上でシミュレーションするというちょっとワクワクする研究です。「なんだか難しそう……」と思うかもしれませんが、かなり面白い内容なので、ざっくりとわかりやすくご紹介していきます。AIが犯罪をどんなふうに「学習」するのか、そしてそれがどんなふうに私たちの社会に役立つのか――一緒に見ていきましょう。
1. 犯罪を“学習”するってどういうこと?
実は近年、環境犯罪学という分野では「人が犯罪に至るプロセスを、どのように数理モデル化できるのか」を熱心に研究しています。たとえば「犯人は家から近い場所を狙うことが多い」とか、「リスクが高い場所は避ける傾向がある」といった行動パターンを、地理情報や人口分布などと合わせてシミュレートするわけです。
その一方で、従来の犯罪シミュレーションでは、犯人の行動ルールを最初から固定してしまう(例:「ここにパトロール警官がいれば逃げる」「この条件なら犯行に及ぶ」など)ことが多かったと言われます。ですが、現実の犯罪者は状況に応じて学習し、変化しますよね。そこで登場するのが強化学習を取り入れた研究手法です。
ざっくり言うと、この記事では以下のポイントを紹介していきます。
論文が取り組むテーマ→ 強化学習を使って「犯行の意思決定」をモデル化
どんなやり方?→ エージェント(仮想の犯人)を街の地図上で動かし、報酬(報われる犯罪)やリスク(捕まりやすい犯罪)を学習させる
どんな結果が?→ リスクとリターンを天秤にかけて犯罪を行う傾向が“自然に”再現された
実社会とのつながりは?→ 防犯対策(CCTVや照明など)をどう配置すれば効果が高いかを、よりリアルにシミュレートできる可能性
この研究に着目した背景としては、「実際の犯罪には学習や適応の要素が大きいのに、これまでのシミュレーションでは静的なルールしか使えず、リアリティが足りなかった」という問題意識があります。犯人が“学習”していく仕組みを組み込むことで、より現実に近い犯罪予測や対策立案ができるのでは? という狙いがあるわけですね。
2. 強化学習による犯罪シミュレーション
2-1. 研究の目的
研究チームのゴールは、「犯人が学習し、適応する過程を再現できる犯罪シミュレーションを作りたい」というものです。具体的には、侵入窃盗(空き巣)を想定して、犯人が「どの家を狙うか」を時間をかけて学んでいく様子をモデル化し、犯罪発生パターンがどう変わるかを分析しています。
ここでの鍵は「賞罰付きの学習」。たとえば「高い報酬を得られる空き巣」なら成功体験になり、リスクが高い(警察に捕まる確率が高いなど)と学習が進むにつれて“避ける”行動が強まる、というイメージです。
2-2. 研究方法
研究では「エージェント・ベース・モデル(ABM)」という手法が使われています。これは、仮想空間に犯人役のエージェントを配置し、その周囲に家や防犯カメラ、警察などを設定して、複数のエージェントが同時に動き回る様子をシミュレートする方法です。
ここで犯人エージェントは、強化学習の一種「PPO(近接方策最適化)」というアルゴリズムを使って、自分が今いる状況(家との距離、警戒が厳しいかどうかなど)に応じて「攻撃する/しない」や「移動する」といった行動を最適化します。行動の結果、もし犯罪が成功すればとなれば報酬(プラス評価)を受け取り、逆に捕まったりリスクが大きすぎる場合はマイナス評価を受ける仕組みです。
2-3. 研究結果
シミュレーションを回したところ、犯罪者エージェントは時間とともに“学習”を深め、よりリスクの少ない家やリターンの大きい家を的確に狙うようになることがわかりました。さらに、防犯カメラやパトロールなどの対策を途中で追加すると、エージェントたちは「リスクが上がった」と学習し、結果として犯行場所の偏りが変わっていく。これが従来の「決め打ちルール」ではなく、あくまでエージェント自身の経験則から勝手に導き出されるのが興味深いポイントです。また、中にはリスクを承知で“高い見返り”を狙うエージェントも出現し、これは「犯人にも性格や状況の違いがある」ことを示唆する結果として議論されています。
2-4. 結果の解釈と先行研究との差異
これまでの環境犯罪学系のシミュレーション研究は、犯行ルールをはじめから固定的に定義していたものが主流でした。しかし今回の論文では、強化学習によって能動的に学習する仕組みを組み込み、よりダイナミックに犯罪のパターンが変化する様子を再現できたのが特徴です。
先行研究にくらべ、「防犯対策を講じたら犯人がどう動きを変えるか」などの検証が深められるという点が大きな新規性といえます。
3. AI×防犯の未来
本研究で提案されたモデルは、学術面では「強化学習を犯罪学に導入する」ことの有用性を示し、犯罪理論の精緻化に寄与する可能性を持っています。社会面では、防犯カメラや警察官の配置を最適化したり、新しいセキュリティデバイスの効果をシミュレーションで予測したりと、実際の犯罪対策にも役立つかもしれません。
もちろん、モデルには限界もあります。たとえば「犯人がそもそも資金に困っている」「家族構成」など人間的な要素はまだ十分には盛り込めていませんし、あくまで想定外の学習をしないわけではない(AIが想定外の行動に走ることもある)など、さらなる改良の余地も残されています。今後は、もっと詳細な地図データやソーシャルネットワーク分析などと組み合わせることで、現実世界とのギャップを縮めていく研究が期待されています。犯人の心理や社会背景まで踏み込んだモデリングができれば、防犯対策の効果をさらに高精度でシミュレートできるようになるでしょう。
4. 補足情報&参考文献
専門用語のおさらい
強化学習 (Reinforcement Learning):行動に対して「報酬」や「ペナルティ」を受け取り、それを繰り返す中で最適な行動方策を獲得していく機械学習の一分野。
エージェント・ベース・モデル(ABM):個々のエージェント(人や車など)を仮想空間内で動かし、全体としてどんな現象が生まれるかを解析するシミュレーション手法。
参考文献・著者情報
論文タイトル:
“Learning the rational choice perspective: A reinforcement learning approach to simulating offender behaviours in criminological agent-based models”掲載誌:Computers, Environment and Urban Systems (Volume 112, September 2024)
著者:Sedar Olmez, Dan Birks, Alison Heppenstall, Jiaqi Ge