
データサイエンスの学習を始めるとぶち当たる人種問題の壁
Pythonのおレッスン
一応これでもSEをやらせていただいておりますので、(社内ニートから脱しなさいという上からの圧を感じる以上(もちろん自分自身脱しないといけないと毎日葛藤しているがそうか?本当に俺は労働に戻る気があるのか?))ここ最近はPythonの勉強を始めている。
プログラミングについては、最初の研修でJava、休職するまでの半年間はC#で開発をしてたことがあるが、ちょっと触ってすぐやめてという状態を何度も繰り返したので、基礎の基礎の基礎の基礎位しか覚えていない。でもこんなペーペーで分かる位、pythonは簡単すぎると思う。e-ラーニングで色々コードを真似して書いていると、え、変数宣言しなくていいの?とか、インデントずらすだけで文構造認識してくれるの?と今まででちょっぴり面倒だったことが至れり尽くせりでカバーしてくれている。
プログラミング学習の先生はchatGPT御大様が務めてくれている。分からない言葉の解説はもちろん、テーマをこちらで指定すればコード記述の問題も作問してくれたり、なんでもやってくれる。自分が触れている開発環境(pycharm)にもコード生成AIのプラグインを入れてみたら、chatGPTが用意した問題をAIに解かせる悲しいマッチポンプもできてしまった。
普通に対話するのも飽きてしまったら、「あなたはプログラミングに詳しいお嬢様です」と投げかけて、GPTお嬢様との優雅なプログラミングおレッスンを堪能することもできる。
ボストンの住宅価格データセット
(ほんとうに)基本的な文法は一通り理解できたので、とりあえずpythonでできることの筆頭に挙げられるデータ分析・機械学習に手を伸ばしてみた。図書館で借りた参考書をもとにデータ分析を学んでいくと、まずはボストンの住宅価格のデータセットを使いますと書いてあるので、読み込もうするとできない。他のソースは読み込めているのに…と調べたところ、ボストンの住宅価格データセットは倫理的(ポリティカル)な問題がある理由で削除されたと出てきた。どゆこと?参照先のツイートを見るとあ…こりゃあダメだわと察してしまった。
ボストンの住宅価格のデータセットは、ポリティカルにヤバいので、いま取り扱うのはどうなの?という話をした
— ところてん (@tokoroten) May 17, 2021
激ヤバいのがBで、
そこそこヤバいのが
NOx(工場地帯かどうか)
DIS(貧民街には職安ができる)
PTRATIO(税収が足りないので教師が足りない、貧困で子供が増えすぎ)
LSTAT(いわずもがな) pic.twitter.com/GeU5hNXGVP
一応どういうことか説明すると、データセットで用いられる変数の内にいくつも貧民や人種への差別と捉えられてもおかしくないものが存在している。CRIM、DIS、PTARTIO、LSTATは貧民に対する偏見は生みかねないし、やっぱりBっていう変数がどうみても人種的にみてアウトでしょってなる。(Blackと書かずにBと書いたところになんというか作成者の後ろめたさのようなものを感じてしまった。)自分が当事者であると仮定するならば、「理系大学卒の男性と未婚率」のデータセットに障害の有無とか童貞とかが組み込まれている感じだろうか?(う~ん正しい例なのかな…前者はともかく、後者は未婚率を調べるために必要なパラメータな気がするし…)
少し後で気づいたのだが、インポートエラーの注釈文で削除された理由についてもきちんと説明されていた。注釈文について要約すると、
このデータセットの作者は、人種的な自己隔離(racial self-segregation 恐らく、同じ人種同士で集まりやすいということ)が住宅価格にプラスの影響を与えると仮定して、変数 Bを加えた。
このデータセットの作成に至った研究の目的は、大気の質の影響を研究することであった。しかし、この仮説の妥当性を十分に示すことができなかった。
コードの目的が、データサイエンスと機械学習における倫理的問題について研究し教育することでない限り、このデータセットの使用を強く推奨しない。
と書かれている。川や空気に関する変数がおかれていたのは空気の調査だったからだろう。ただ、最初に学ぶ学習用データとしてはどうしても倫理的に適していないから、削除されてしまったらしい。

代わりのデータセットとしてカリフォルニア不動産のデータセットを推奨されていたので、そちらで回帰の勉強を始める。ただ、参考書を眺めているとこのボストンのデータが学習に向いているのが少しわかる気がした。犯罪率(CRIM)が上がると住宅価格がどれだけ下がるか、一人の教師に対する生徒数(PTRATIO)が上がると住宅価格がどれだけ下がるか、などおかれている変数が直観的理解に向いているような気がする。(その理解しやすさが貧困や犯罪への偏見になってしまうのかもしれない。)ただ、それを鵜呑みにし過ぎてしまうと、データ分析から偏見・差別が生まれる可能性がある。
まとめ
データ分析の学習を始めて最初にぶつかる壁が人種問題になるとは思わなかった。でも、データ分析を行う中では、様々なバイアスに対して注意を払わなければいけないのは確かなことだ。だからこそ、しょっぱなで倫理的な問題にぶつかることは必要なことだし、(倫理的な問題があることを含めて)ボストンのデータセットはいい教材なのかもしれない。
ボストンのデータセットはまだ触ってはいないが、自分がもう少し分析に詳しくなったら、注釈で書いてあるようにデータサイエンスと論理的問題というかんてんから調べてもいいかなと思った。
ここまで読んでくれてありがとう。偏見や差別について記事を書くときは自分が無意識のうちに同じようなことを書いていないかすごく気にしてしまう。