ソフトウェア開発の未来を測る：生成AI指標の最前線

2025年2月25日 10:05

実世界GitHubのバグ修正を行うSWE-bench Verifiedの今月の動向をお話します。

生成AIによるソフトウェア開発に関する指標

生成AIのソフトウェア開発能力を評価するために、以下の指標が利用されています。

HumanEval（OpenAI、2021年5月発表）
164個のプログラム問題で構成された評価基準。現在、生成AIは100%の正答率を達成しています。
SWE-Bench（プリンストン大学、2023年10月発表）
実世界のGitHubから収集した2,294個のタスクを基にしています。
- Full：すべてのタスクを含む完全版
- Lite：一部のタスクを除いた軽量版（Fullより20%高いスコアが出る傾向）
- Verified：人間が検証した信頼性の高い問題（Liteよりさらに20%高いスコアを示す傾向）
SWE-Lanser（OpenAI、2025年2月発表）
Upworkから収集した、難易度に応じて報酬が設定された1,488個のタスクで構成。すべてのタスクを解決できれば100万米ドル相当となります。発表されたばかりで、今後の動向が注目されています。

SWE-Bench Verifiedのリーダーボードは以下の通りです。

2024年8月時点のランキング企業で今も上位に残っているのは、次の2社です：

逆に言えば入れ替わりが激しいホットな分野です。

今後のスコア向上に寄与する可能性がある注目の要素は以下の通りです：

これらの要素は、生成AI全体のトレンドとも深く関連しています。

Stability.aiの創始者Emad Mostaqueが「あと2年でソフトウェアエンジニアの仕事はなくなる」と予測してから2年が経過しました。しかし、ソフトウェアエンジニアの需要は依然として高く、大きな減少は見られていません。

2023年10月にSWE-Bench Fullが公開された当初、生成AIの正答率はわずか1.96%（Verifiedに換算すると約2.4%）でした。しかし、現在では60%を超えるスコアに達しています。

ソフトウェア開発コストが限りなくゼロに近づくことで、これまでコストが障壁となっていた分野での爆発的な成長が予想されます。生成AIの進化は、ソフトウェア開発の在り方を大きく変える可能性を秘めています。