見出し画像

次々に誕生する自律ソフトウェア開発エージェントスタートアップ

2023年10月、プリンストン大学がHumanEvalに代わるソフトウェア開発ベンチマークSWE-benchを発表しました。10ヶ月たって、SWE-benchを巡る競争はヒートアップしています。


ソフトウェア開発の自動化

ソフトウェアは人間が書こうが機械が書こうが動けばいいので、生成AIによって自動化するのに有望な領域です。
ソフトウェア開発の中でバグが出たときに修正する作業は、単純なトークン生成の連続ではカバーできない領域です。複合的な要因の中からその状況にあった解決策を探索的に見つけ出さなければならないからです。高度な戦略的な推論が求められます。

ソフトウェア開発ベンチマーク

メジャーなソフトウェア開発ベンチマークは次の2つです:

  • HumanEval (OpenAI)

  • SWE-bench (Princeton大学)

HumanEvalはPythonのプログラム生成の問題ですが、相当解けています。

HumanEval ベンチマーク [klu]

というわけで実際のGitHub 2294個の実世界のバグ課題リストからつくられたのがSWE-benchです ([swebench])。

SWE-bench

SWE-bench(full)

SWE-bench (full) 2024年8月23日現在 ([swebgench])

この表には未掲示ですが、シリコンバレーのY-Combinator 発のスタートアップCosine社がCosine Ginie で30%越えという発表をしています ([aiupdate])。
他は以下の通りです:

  • Amazon 大手ITクラウドベンダ Amazon

  • Factory シリコンバレーのスタートアップ(元 Lawrence Berkeley National Laboratory)

  • AutoCodeRover 国立シンガポール大学の研究チーム

  • SWE-agent Princeton大学の研究チーム

  • AppMap ボストンのOSS開発会社

SWE-bench (lite)

こちらは300個のサブセットからなるベンチマークです。サイズが小さいほうが取り扱いやすく最高記録を出しやすいので多くのスタートアップに愛されています。右側の白抜きの数字が日付です。競争の激しさが垣間見えます。

SWE-bench (lite) 2024年8月23日現在 ([swebgench]

SWE-bench fullで出てきていない会社は以下の通りです:

  • CodeStory ロンドンのスタートアップ(元Meta)

  • Abante AI シリコンバレーのスタートアップ(元DeepMind)

  • Gru シリコンバレーのスタートアップ (CEOはCMU出身)

  • SuperCoder SuperAGI(米国のスタートアップ)が提供。インド系企業。

  • ByteDance TikTokの運営会社。中国の巨大IT企業。

  • Alibaba 中国の巨大IT企業。

  • Agentless イリノイ大学の研究チームが提供

  • CodeR Huaweiを中心とする中国系研究チームが提供

  • MASAI Microsoftのインド研究所の研究チームが提供

  • SIMA 元Yale大学の学生Alex Simaが提供

  • Moatless ストックホルムのAlbert ÖrwallがOSSで提供

  • OpenDevin UIUC, CMU, Yale, などの研究チームがOSSで提供

  • IBM 巨大IT企業IBM

  • Aider OSSのプログラミングサポートツール

むすび

しばらくSWE-bench liteで小競り合いが続いていたのですが、Cosine Ginieが登場して、SWE-bench fullでも競争が激化する予感がします。
1.96%で始まったSWE-benchも10ヶ月で30%に達しました。プログラムのバグを修正するタスクは難度が高いようです。
以下の3つの要素が精度に影響します:

  • 高精度の大規模言語モデル

  • 問題解決フレームワーク

  • エージェントに適したプログラム開発環境

小規模なスタートアップが多く、新興企業と研究チームとOSSが三つ巴の争いをしています。
生成AIの応用領域の中で、結果がわかりやすく、競争も激しく、参入も比較的容易です。自律ソフトウェアエージェントの競争を見ていると、そのまま生成AIの応用の課題の展示会のようで興味深いです。
プログラミング言語特化とかソフトウェア開発の特定プロセスに特化とかいろいろ差異化の方法があるので、競争はしばらく続きそうです。

参考文献

  • [aiupdate] Cosine社のGenie、SWE-Benchで30.08%を達成 他のAIモデルを大きく上回る https://aiupdate.blog/cosine-s-genie-achieves-30-08-percent-on-swe-bench-significantly-outperforming-other-ai-models-081424/

  • [klu] HumanEval Benchmark https://klu.ai/glossary/humaneval-benchmark

  • [swebench] https://www.swebench.com/

  • [weel] 【Devin】未来の技術が到来!完全自立型の生成AIソフトウェアエンジニアが登場 https://weel.co.jp/media/innovator/devin/


いいなと思ったら応援しよう!