デバッグ自動化の進化の速度

ai300lab

2024年4月24日 07:53

LevinやSWE-Agentでデバッグ自動化の成果が発表されるようになりました。デバッグ自動化の現状と近未来をお話しします。

SWE-Benchとは

Princeton大学が12のリポジトリから抽出した現実の2294のGitHub課題からなるソフトウェア開発問題です。対象プログラミング言語はPythonです。

SWE-Benchの状況

SWE-Benchの生成AIエージェントによる自動解決状況は次のようなものです。

2023年10月 SWE-Benchの提案グループがClaude 2で解いた解決率 1.94%
2023年3月 Levin 13.94% (* 25%の抽出試験）
2023年4月 SWE-Agent 12.29% (OSSの最高値)
2024年4月 MAGIS 13.94%
2023年4月 AutoCodeRover 15.95%

デバッグに関する近未来予測

Stability AIの元CEO Emad Mostaqueが2023年に予言したのは5年以内にプログラマはいなくなるです。
仕様開発、コーディング、デバッグ、DevOpsといろいろ仕事はあります。コーディングについては生成AIもだいぶ進展があります。「オセロのプログラムを書いて」といえばGPT-4はプログラムを生成してくれます。コピーしただけで実際に動きます。
仕様開発やDevOpsの課題を作るには難しそうです。
デバッグに関してSWE-Benchを指標に自動化の速度を推定してみましょう。
かなり無理な仮定ですが「線形に進化する」と仮定してみましょう。
2023年10月を第0月として、回帰曲線は 2.03 * x + 2.2となります。
線形回帰とすると100%になるのは第48月、すなわち、2027年10月です。
SWE-Benchの課題のすべてが自動的に解けてもすべてのソフトウェア開発が自動化されることにはなりません。しかし、ソフトウェア開発の大きなマイルストーンとは考えられます。

むすび

SWE-Benchスコアが線形に進むという仮定がなりたつかどうかはまだ生成AIによる自動化研究が始まったばかりなのでなんともいえません。
次の2つの分野での進展が鍵になりそうです：

複数エージェントの協調
エージェントにとって使いやすいインターフェース（開発環境）の開発

いまのところ、Emad Mostaqueの5年でエージェント開発が人間を代替するという予測に沿った結果です。今後の展開が興味深いです。

参考文献

SWE-bench: Can Language Models Resolve Real-World GitHub Issues? https://arxiv.org/abs/2310.06770 2023年
【Devin】未来の技術が到来！完全自立型の生成AIソフトウェアエンジニアが登場　https://weel.co.jp/media/innovator/devin/ 2024年
AutoCodeRover: Autonomous Program Improvement https://arxiv.org/abs/2404.05427 2024年
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution https://arxiv.org/abs/2403.17927 2024年
SWE-Agent https://github.com/princeton-nlp/SWE-agent 2024年
Stability AI CEO: There Will Be No (Human) Programmers in Five Years　https://decrypt.co/147191/no-human-programmers-five-years-ai-stability-ceo 2023年