ハッカソンの審査に数値が使えない理由 by Milla Lappalainen
審査はハッカソンの栄誉です。世界には高く評価されているハッカソンがいくつもありますが、そこには共通点があります。そのひとつが、審査がうまくいっていることです。いくつものプロジェクトや審査員が存在するため、ハッカソンの審査はとても難しいのです。それらを解釈してスコアをつける時間を設定されると、本当に大変だと感じます。
このことについてJuuso Lappalainenに話を聞きました。彼は、Junctionの審査システムを開発しているチームの一員です。
紙とペンから迅速なデジタルの審査へ
昨年、Junctionの審査はデジタル時代を迎えました。以前のような紙とペンから、審査員がスマホからアクセスできるウェブアプリへと移行しました。最も重要なのは、数値によるランク付けを排除したことです。
1人の審査員が完璧に評価できていたとしても、他の審査員との間に違いが生じる可能性もあります。他よりもポジティブに評価する審査員がいるからです。たとえば、「10」は決して到達できない極大値だと考えている審査員もいれば、今回の最高のプロジェクトが「10」であり、それにあわせて残りのプロジェクトを評価する審査員もいるでしょう。
「群衆の知恵」は、Marcus du Sautoy教授による驚くべき動画で実証されています。彼は、瓶に4000個余りのゼリービーンズを入れ、周囲に「いくつ入っていると思う?」と聞きました。誰も正確に答えることはできませんでしたが、平均すると正解からわずか0.1パーセントの誤差に落ち着きました。つまり、みんなの推測が情報のようになったのです。
数値を使わない審査システムの開発
それでもやはり、数値ベースの審査システムはエラーが発生しやすいものです。何が優れたハックなのかという評価基準を持っていない、プロではない審査員にとって、数値を扱うことは簡単な作業ではありません。
数値ベースのシステムでは、公正を期すために、これまでに審査したプロジェクトを覚えておく必要があります。そうしなければ、審査はあやふやなものになってしまうでしょう。
解決策はあるのでしょうか? ペアワイズ比較を使うといいでしょう。
Junctionの審査では、プロジェクトに数値のスコアをつけるのではなく、2つのプロジェクトから優れたプロジェクトを選んでもらいます。こうした比較に勝利すればランクが上がり、敗北すればランクが下がります。何度も比較が行われれば、それだけ信頼できるランキングができあがります。
数値のスコアを使わない審査システムのアイデアは、Anack AthalyeがHackMITで導入したものです。彼は、ハッカソンや大規模な競技の審査の品質を向上させる方法を求めていました。Athalyeの計算式は、今ではJunctionの審査システムでも用いられています。
2016年には、新しい審査システムをテスト的に導入しました。今年は、チームJunctionが問題点を改善していきました。最も大きな違いは、トラックごとに審査をすることでした。プロジェクトを同じ(たとえばFintechという)トラックで見ると、審査員の仕事が楽になり、信頼性の高い結果が手に入るようになりました。
訳者による補足
この記事から参照されている計算式をPython/Flaskで実装したものが、https://github.com/anishathalye/gavel にあります。すでにいくつものハッカソンで使用されているようです。
この記事が気に入ったらサポートをしてみませんか?