公平性の研究が採択されるまでを振り返る
筆者:小暮 駿介
はじめに
慶應義塾大学理工学研究科 青木義満研究室修士2年の小暮 駿介と申します.現在産業技術総合研究所(産総研)にて,Research Assistantとして研究をしています.
このAdvent Calendarでは,CVPR2021の公平性に関するWorkshopであるBeyondFairCVや,その発展として先日のViEW2021で発表をした,歩行者検出タスクにおける年齢属性間の検出格差に関する内容と,歩行者検出に関する研究を進める上で感じたことなどを紹介させていただきます.
AIの公平性について
近年,人工知能の技術の進歩が目覚ましいですが,その中で,公平性というワードを耳にしたことはあるでしょうか.ここでは,詳細な説明を省きます(弊研究グループでは,公平性の分野に関する調査資料を公開していますので,こちらをご参照ください.)が,人種や性別,地域や文化などの違いから,機械学習モデルが不当な判断を下すことがないようにするということを目的としています.私のグループでは,この公平性の問題を扱うことを研究テーマとしています.
コンピュータビジョンの分野においては,人種や性別・年齢のような人間の属性情報や,物体のカテゴリなど,画像や動画などのデータから得られる情報は多く存在することから,様々な問題が取り上げられています.その中でも私は,歩行者検出タスクにおける公平性の問題に着目しました.
現在の研究テーマに出会うまで
私は修士1年からcvpaper.challengeの研究メンバーとなり,公平性に関する研究に触れ始めました.私自身,大学院から研究室の研究テーマが大きく変わったということや,新型コロナウィルスの感染拡大もあって,最初の2~3ヶ月はひたすらに論文を読み漁っていました.元々は論文を読むことがあまり得意ではなかったのですが,cvpaper.challenge全体で取り組んでいるメタサーベイと呼ばれる企画もあってかなり慣れたなということを今でも覚えています.(論文読むのに慣れていない方は是非!)
この期間を踏まえて,まず最初に私たちのグループは年齢及び人種間での画像認識タスクでの性能格差に関する研究をしようということになりました.しかし,この時期は人種差別に関する抗議活動が活発化していたことや,Tiny ImageやImageNetなどの著名な画像データセットにおけるセンシティブな問題が非常に強く議論されていました.グループ内で,どのようにして公平性を担保できる手法を考えていくかを模索していましたが,メンバー間で足並みが揃わず,投稿目標を定めても実験が全然まとまらないという状況を繰り返してしまいました.それでも,研究グループ内での画像データセットへのアノテーションのノウハウや,メンバー間でどのようにして連携していくかなどを議論しました.これらの経験は,現在研究に取り組む上で非常に活きていると感じます.私たちのグループでは,人間の主観に左右されにくい,年齢属性間の性能格差に関する研究に取り組もうということになり,歩行者検出に辿り着きました.
歩行者検出タスクにおける公平性の問題
まず歩行者検出は,画像や動画内の歩行者の位置と大きさを,バウンディングボックスのような形で推定するタスクを指します.このタスクは,自動運転を見据えた車載カメラや,監視カメラ映像内の犯罪行為の検知などへの応用が考えられます.
2019年のCVPR Workshopにおいて,初めて歩行者検出における公平性の問題が取り上げられました.
画像は Age and gender bias in pedestrian detection algorithms より引用
上の図は,左側が年齢の観点(大人と子ども),右側が性別の観点(男性と女性)での既存手法を用いた見逃し率の比較結果を表しています.これらの図を見ると,年齢という観点では子どもが,性別という観点では女性の方がほとんどの手法で見逃しやすい傾向にあるということが分かります.それでは,何故このような検出性能の不公平性が生じてしまうのでしょうか.ここからは年齢属性にのみ言及していきますが,この論文では,主に2つの観点から考察を行っています.
・年齢属性間のデータ数の偏り
- 例えば,日本の総務省統計局は,子どもを0歳から14歳,大人は15歳以上(高齢者は65歳以上)と定義しています.このことを踏まえると,歩行者全体のデータの中でも子どもが占めるデータの割合は必然的に少なくなると言えます.また,この論文の著者は昼間は子どもは学校に行っているので,交通シーンに登場することは少ない(?)という考察もしていました.
・バウンディングボックスの大きさの偏り
- これに関しても考えてみれば当然と言えそうです.子どもの方が大人より身体が小さいので,同じような距離にいた時には,子どもの方が検出するのは難しいという主張です.
この2つの主張はぱっと見「まあそうだよね」というのが率直な印象でしたが,「実際本当に2つとも関係しているの?」「不公平性はどこから来ているのか知りたい!」というところからこの研究はスタートはしました.
アノテーションはキツい
まず最初に考えたのは,既存の歩行者検出データセットでも年齢のカテゴリ間でデータ数の偏りは存在するのか?というところです.そもそも歩行者検出データセットは,大人と子どもというカテゴリに親切に分けてくれているわけではありません.これを調べるのが中々大変でした.今回はWeakly-Supervised Person Datset (WSPD)と呼ばれるデータセットを用いて無作為に抽出した5,000枚のクロップされたバウンディングボックスに対して,大人・子ども・高齢者の年齢属性(研究当初は3属性で進めていました)を付与しました.下に,実際の判別結果を示します.
'Noise'は「バウンディングボックス内に人がいない」,'Multiple'は「同一バウンディングボックス内に複数の人物が存在する」ことをそれぞれ示しています.この結果,仮説の通り子どものデータというのは大人と比較すると非常に少ないということが分かりました.また,'Multiple'の結果にも現れているように,バウンディングボックス単位で扱うと,年齢属性の判別が難しいケースも多かったです.また,高齢者に関しては64歳と65歳でその定義が分かれるということもあり,何を基準にするんだという問題もありました.CVPR Workshopの段階では3つの年齢属性のタスクとして扱っていましたが,発表時に突っ込まれたということもあって,それ以降は目的を明確化するために大人と子どもの2つに絞って進めました.今後高齢者というカテゴリが必要となる場合に,納得できるような年齢属性の判断基準を作ることが重要であると感じました.
評価データセットの構築
歩行者検出用のデータセットには年齢属性は付与されていないため,それぞれの属性の検出性能を評価できるデータセットを構築する必要がありました.先行研究では年齢に加えて性別もアノテーションしており,そのファイルも公開されていました.しかし,アノテーションはtestセットのみであることや,元のINRIA Person Datasetのアノテーションは小さな人物に対する厳密なアノテーションがされていなかったことを踏まえて,せっかくだしtrainデータも含めて自分たちでアノテーションし直そう,ということになりました.
上に示した図がアノテーションの一例です.前述の年齢属性の判定に加えて,バウンディングボックスの矩形も付与するということもあり,思い返せばこの作業が一番しんどかったかもしれません.幸い,対象のINRIA Person Datasetは小規模なデータセットでしたが,それでも1枚1枚のアノテーションは非常に時間がかかりました.効率良くアノテーションを行うのに必要なことは,以下の3点です.
・隙間時間を有効活用する
・アノテーション自体をメインの作業にしてしまうと,気持ち的にしんどい.「次の予定まで1時間あるし進めておくか!」くらい楽な気持ちで行うことが意外と大事だなと感じました.
・共同作業を行う
・自分の性格の問題でもありますが,誰かと一緒に作業を行うとモチベーションが上がります.私はアノテーションをする際には研究メンバーに連絡をとって,zoomを繋いで競争していました.
・クロスチェックを行う
・これは上の内容と重なる点がありますが,アノテーションした内容をお互いに確認し合うことは,その内容の信頼性を担保することにも繋がります.また,アノテーションをしていて,属性の決定に自信がない場合でも,画面を共有して確認し合うこともできます.研究メンバーとは,対面で1,2回しか会ったことがありませんが,この辺の連携はオンラインでもうまくとれていたなと思います.
これらのプロセスを踏まえて,私たちは従来のINRIA Person DatasetのバウンディングボックスをRe-annotationするとともに,学習用及び評価用の全ての画像に年齢属性を付与した,"Fairness-Aware INRIA Person Dataset"を構築しました.ちなみに,データセットはこちらから参照することができます.
CVPR Workshopへの採択と参加
歩行者検出の公平性に関する研究を初めて投稿したのが,BeyondFairCVです.私は,論文の投稿締め切りであった3月は就職活動と重なっていたということもあり,1~3月は本当に忙しかったなという印象です.この時期は,1週間の各曜日にそれぞれ何をするのかを明確にするということが本当に大事であると痛感しました.
私が投稿した論文の内容はSelf-Trainingによる各年齢属性の検出性能に及ぼす影響に関するものでしたが,当初の結果はConditional Acceptでした.というのも,現在歩行者検出タスクでは,見逃し率が1桁であるのは至極当たり前であるのにも関わらず,それと比較するとかなり検出性能が悪かったことが論文の評価に直結していました.そこで私たちは,
・歩行者検出における性能格差をなくすと何がいいのか?
・構築したデータセットは非常に細かくアノテーションが施されており,検出が難しいデータセットである
という,この2点をアピールできるように論文を修正し,実験結果に対する詳細な説明を加えたことで,正式に採択されることになりました.研究室に宿泊し,深夜に発表したことや,公平性の分野の最前線で活躍されている研究者の講演を聴講できたことは,貴重な経験となりました.
ViEWでの発表とその後
CVPR Workshopからしばらく間が空きましたが,先日行われた国内学会のViEWでこの研究の少し発展した内容を発表しました.ここでは,年齢属性を大人と子どもに絞った上で,Self-Trainingによる各年齢属性の検出性能への影響を事前実験として改めて行い,先行研究で原因であると考察されていた,「属性間データ数の偏り」と「歩行者の大きさと見逃し率の関係」を実際に関係があるのかについて検証しました.
その結果,
子どもの方がデータ数が少ないということは検出性能の格差に影響はなく,もう一方の原因として挙げられていた,バウンディングボックスの大きさにのみ依存する
という知見が得られました.子どものデータのみにAugmentationを適用すると,どちらの属性の検出性能も向上しましたが,子どもはほんの少ししか向上せず,大人の方がその恩恵をむしろ受けていたため,歩行者検出における年齢属性の不公平性の問題を,バウンディングボックスのスケール依存の問題として定義することができました.
国内で公平性の問題に取り組んでいる方が少ないということもあってか,初めてスポットライト発表に選んでいただき,その後のディスカッションでも参加者の方と様々なご質問やご指摘をいただくことができました.また,本稿執筆中にこの研究内容がAAAIのWorkshopであるAIBSD2022に採択されました.この勢いに乗って,卒業までにはメインカンファレンス採択を狙っていきたいなと思っています.
終わりに
公平性の問題は,国内外を見ても取り組んでいる研究者がそう多くはない研究分野だと思います.その一因として,人間のセンシティブな属性を扱うことが多いことが挙げられます.しかしながら,機械学習のモデルを実社会で利用する際には,本稿序盤で説明したようなバイアスは存在してはならないと考えています.また,取り組んでいる研究者が少ないことや,確立された解決方法がないことから,研究分野の最前線に立つことができる可能性は他の分野と比較すると高いと思っています.本稿を踏まえて,他の研究タスクにおける不公平性について調べてみよう,実際に解決するためにはどうすれば良いのか,など少しでも公平性の分野に興味を持ってくださる方がいると嬉しいです.
また,私が所属しているFATEグループでは,絶賛研究メンバー募集中です.cvpaper.challengeのHPに詳細が記載されていますので,興味があれば是非ご連絡ください!