こちらOpenAI o1さんです。今後は連携して貰えますか? - Devin観察日記
今日は OpenAI o1 と Devin が相互に補完する関係であるという話です。
ちなみに僕は o1 Pro は契約してません。以下は普通の o1 の話です。
Devin の暴走
昨日の Devin はデプロイのことを考えずに実装してしまい、合計80ドルくらい無駄にしてしまいました。Devin は一度ハマると自力で脱出できなくなってしまうのですが、ひたすら試行錯誤を続けるので大量のクレジットが浪費されてしまいます。恐ろしいですね。
ちなみに、浪費を防ぐ設定もあります。
Usage & Limits タブにある Default Session ACU Limit (Since Last Message) という設定がそれです。説明を読むとセッション単位のように読めますが、最後のユーザーの発言以降で使用できる ACUs の上限というのが重要です。スレッドの中で何度もやりとりを続ければ、セッションごとの ACUs はこの数字を上回ります。
上限を超えるとこういうエラーが出て、Devin は強制的に sleep されます。
デフォルトは 10 だったと思いますが、最初の内は思い切って小さな数字にしておくべきだと思います。長いタスクを安心して振れるようになったら、徐々に上限を増やしていくと良さそうです。
o1様
Devin が沼にハマった時、手を差し伸べてくれるのが OpenAI o1 です。昨日の件も o1 に相談したところ、僕の指示が始めから全部間違いだったということが分かりました。そこで o1 に教えを乞いながら、Cloudflare Workers の設定を全体的に見直し、ちゃんとリリースできる下地を整えました。
Devin の作ってくれたプルリクは、1/3 くらい捨てる事になりそうです。残りの 2/3 の実装をやってもらうには、修正方針を伝える必要があります。同じセッションで続けると上手くいきません。過去の Plan に引きづられて、全く同じミスを繰り返してしまうのです。
そこで新しいセッションを立ち上げて、僕と o1 の会話をすべて投げてしまうことにしました。
これで新しいセッションの Devin に意図が伝わって、新しいプルリクを作成してくれました。Devin が "o1様"と呼んでいるところがジワジワきますね。
その後も実装を進めてくれたのですが、やはり Devin は勘違いして沼にハマってしまいます。もっとカジュアルに o1 を召喚できるといいんですが、地味に手間なので、最後は自分でやってしまいました。
o1 と Devin
それにしても o1 の問題解決能力は目を見張るものがあります。Devin が業務委託エンジニアなら、o1 は外部の技術アドバイザーといった感じですね。
Devin が o1 API を使うようになったら、「ハイクラスの業務委託エンジニア」にクラスチェンジして、もっと複雑な依頼もこなせるようになるでしょう。ユーザーの指示が間違っている、と事前に教えてくれるようになったら最高です。クレジットの浪費を防げるなら、高い API 料金もペイするはずです。
という訳で、まだポテンシャルがありますね。今後に期待です。