
ソフトウェア開発の未来を測る:生成AI指標の最前線
実世界GitHubのバグ修正を行うSWE-bench Verifiedの今月の動向をお話します。
生成AIによるソフトウェア開発に関する指標
生成AIのソフトウェア開発能力を評価するために、以下の指標が利用されています。
HumanEval(OpenAI、2021年5月発表)
164個のプログラム問題で構成された評価基準。現在、生成AIは100%の正答率を達成しています。SWE-Bench(プリンストン大学、2023年10月発表)
実世界のGitHubから収集した2,294個のタスクを基にしています。Full:すべてのタスクを含む完全版
Lite:一部のタスクを除いた軽量版(Fullより20%高いスコアが出る傾向)
Verified:人間が検証した信頼性の高い問題(Liteよりさらに20%高いスコアを示す傾向)
SWE-Lanser(OpenAI、2025年2月発表)
Upworkから収集した、難易度に応じて報酬が設定された1,488個のタスクで構成。すべてのタスクを解決できれば100万米ドル相当となります。発表されたばかりで、今後の動向が注目されています。
SWE-Bench Verifiedの現状
リーダーボード
SWE-Bench Verifiedのリーダーボードは以下の通りです。

ランキング企業・団体の顔ぶれ
ランキングしているのは次のとおりです:
W&B:OpenAIのインターンのアイディアを元に設立されたAIプラットフォーム企業(2017年創業)
Blackbox AI Agent:シリコンバレーの小規模スタートアップ
Codestory:元Meta社員がロンドンで立ち上げたスタートアップ
Learn-by-Interact:Googleと香港大学の共同研究プロジェクト
delvo:元はテスト支援会社とされる謎のスタートアップ
Emergent:Y-Combinator系のシリコンバレースタートアップ
Gru: CMU出身中国系CEOの米国スタートアップ
EPAM:ニューヨーク証券取引所上場のグローバル企業(ブラジルで創業)
Amazon:GAFAの一角
BRACKET:少人数の謎のスタートアップ
OpenHands:DevinのOSS版を目指すコミュニティOSS
Google:GAFAの一角
Enginelabs:ロンドンに拠点を置く謎のスタートアップ
Agentless:イリノイ大学の研究プロジェク
2024年8月から出ている企業・団体
2024年8月時点のランキング企業で今も上位に残っているのは、次の2社です:
Codestory
Gru
逆に言えば入れ替わりが激しいホットな分野です。
今後の展開
今後のスコア向上に寄与する可能性がある注目の要素は以下の通りです:
新しい言語モデル
Grok-3や今後登場が予想されるGPT-5など、高性能なモデルの進化
エージェント利用によるバグ修正の高度化
探索エージェント、試行錯誤エージェントの活用によるバグ修正能力の向上
テスト時計算(Answer-Then-Reasoning)の導入
解答後に深く検証することで精度を高める手法
これらの要素は、生成AI全体のトレンドとも深く関連しています。
むすび
Stability.aiの創始者Emad Mostaqueが「あと2年でソフトウェアエンジニアの仕事はなくなる」と予測してから2年が経過しました。しかし、ソフトウェアエンジニアの需要は依然として高く、大きな減少は見られていません。
2023年10月にSWE-Bench Fullが公開された当初、生成AIの正答率はわずか1.96%(Verifiedに換算すると約2.4%)でした。しかし、現在では60%を超えるスコアに達しています。
ソフトウェア開発コストが限りなくゼロに近づくことで、これまでコストが障壁となっていた分野での爆発的な成長が予想されます。生成AIの進化は、ソフトウェア開発の在り方を大きく変える可能性を秘めています。