生成AIソフトウェア開発ベンチマーク SWE-benchの課題
ソフトウェア開発ベンチマークのSWE-benchにいろいろ課題が指摘されているというお話をします。
SWE-benchの課題OpenAIが提案したプログラミング課題のHumanEvalが90%以上解けるようになったので、新しいベンチマークとして2023年10月にプリンストン大学のチームが提案したのがSWE-benchです。この原稿を書いている段階ではHumanEvalのSOTAは99.3%(o1-mini)になっています ([paperswithcode])。
SWE-be