ハッカソンの審査に数値が使えない理由 by Milla Lappalainen

2022年9月16日 21:18

以下は、Milla Lappalainen(@milla.lappal)による「Why Numbers Are a No-Go in Hackathon Judging」の翻訳です。本人の許可を得て掲載します。

審査はハッカソンの栄誉です。世界には高く評価されているハッカソンがいくつもありますが、そこには共通点があります。そのひとつが、審査がうまくいっていることです。いくつものプロジェクトや審査員が存在するため、ハッカソンの審査はとても難しいのです。それらを解釈してスコアをつける時間を設定されると、本当に大変だと感じます。

このことについてJuuso Lappalainenに話を聞きました。彼は、Junctionの審査システムを開発しているチームの一員です。

「審査は非常に難しい問題です。常に主観的な部分が残されているからです。完璧にできているハッカソンは世界に1つもないと思いますよ」

「Junctionでは、審査はすべての参加者のハッカソンの体験を楽しいものにする大きな要因であり、最終的にはハッカソンの質を決めるものだと考えています。だからこそ、最高の審査ができるように、一層の努力を重ねています」

紙とペンから迅速なデジタルの審査へ

昨年、Junctionの審査はデジタル時代を迎えました。以前のような紙とペンから、審査員がスマホからアクセスできるウェブアプリへと移行しました。最も重要なのは、数値によるランク付けを排除したことです。

「審査でパフォーマンスを評価すると、最も一般的なのは数値を付けることでしょう。たとえば『1〜10』のようにね」

「ですが、数値を使うシステムには明らかな欠陥があります。たとえば、ある審査員が最初のプロジェクトに最高点の『10』を付けたとしましょう。次のプロジェクトがそれよりも優れていたら、どうすればいいのでしょうか？数値の目盛りは、必要に応じて上方に伸ばすことはできません」

1人の審査員が完璧に評価できていたとしても、他の審査員との間に違いが生じる可能性もあります。他よりもポジティブに評価する審査員がいるからです。たとえば、「10」は決して到達できない極大値だと考えている審査員もいれば、今回の最高のプロジェクトが「10」であり、それにあわせて残りのプロジェクトを評価する審査員もいるでしょう。

「このように評価が分かれてしまうのは、必ずしも問題ではありません。『群衆の知恵』と呼ばれる現象が働くからです。過小評価する人数と過大評価する人数は、同程度になる傾向があります。したがって、過度にポジティブな評価は、過度にネガティブな評価を打ち消すのです」

「群衆の知恵」は、Marcus du Sautoy教授による驚くべき動画で実証されています。彼は、瓶に4000個余りのゼリービーンズを入れ、周囲に「いくつ入っていると思う？」と聞きました。誰も正確に答えることはできませんでしたが、平均すると正解からわずか0.1パーセントの誤差に落ち着きました。つまり、みんなの推測が情報のようになったのです。

Marcus du Sautoy教授は「群衆の知恵」の興味深い魔法を披露している

数値を使わない審査システムの開発

それでもやはり、数値ベースの審査システムはエラーが発生しやすいものです。何が優れたハックなのかという評価基準を持っていない、プロではない審査員にとって、数値を扱うことは簡単な作業ではありません。

数値ベースのシステムでは、公正を期すために、これまでに審査したプロジェクトを覚えておく必要があります。そうしなければ、審査はあやふやなものになってしまうでしょう。

解決策はあるのでしょうか？ ペアワイズ比較を使うといいでしょう。

「誰もが同じようにプロジェクトを審査するのは不可能です。しかし、2つのプロジェクトからより優れたプロジェクトを選ぶことは、誰にでもできるはずです」

Junctionの審査では、プロジェクトに数値のスコアをつけるのではなく、2つのプロジェクトから優れたプロジェクトを選んでもらいます。こうした比較に勝利すればランクが上がり、敗北すればランクが下がります。何度も比較が行われれば、それだけ信頼できるランキングができあがります。

数値のスコアを使わない審査システムのアイデアは、Anack AthalyeがHackMITで導入したものです。彼は、ハッカソンや大規模な競技の審査の品質を向上させる方法を求めていました。Athalyeの計算式は、今ではJunctionの審査システムでも用いられています。

「比較による審査システムの魔法は、すべての投票が対象としているペアだけでなく、他の投票にも影響を与えることです。3時間かけて150の審査を行うことで、信頼できる結果を手に入れることができます」

2016年には、新しい審査システムをテスト的に導入しました。今年は、チームJunctionが問題点を改善していきました。最も大きな違いは、トラックごとに審査をすることでした。プロジェクトを同じ（たとえばFintechという）トラックで見ると、審査員の仕事が楽になり、信頼性の高い結果が手に入るようになりました。

訳者による補足

この記事から参照されている計算式をPython/Flaskで実装したものが、https://github.com/anishathalye/gavel にあります。すでにいくつものハッカソンで使用されているようです。

この記事が気に入ったらサポートをしてみませんか？