Claude Computer Use でDifyのDSLエクスポートの自動化?

Claude Computer Use でDifyのDSLエクスポートの自動化の実験。

# 前提
・Difyのユーザーとパスワードは実験用に一時的に変更
・制限時間を超えるため、ログイン処理とバックアップ処理で2回に分ける
※補足:念のためあえて画質を落とし、識別情報はマスクをかけているため少し見ずらいです。

# 観点
〇画面表示は英語だが日本語で指示しても対応可能か?
〇カーソルを合わせないと見えない3dotボタンを認識できるか?
〇「アプリケーションブロックがマス目状に並んでいる」状態を認識できるか?

# プロンプト
## 1回目:ログイン処理
```
以下のタスクを実行してください。
1. ブラウザを起動する。
2. 「https://[Difyサーバドメイン]/apps」に接続する。
3. email addressに [ユーザアカウント] を入力し、passwordに [パスワード] を入力する。
4. sing inする。
```
## 2回目:バックアップ処理
```
1. パスワードの保存について聞かれた場合は、「保存しない」を選択してください。
2. 左上にアイコンが表示された四角いブロック単位に複数のアプリケーションが表示されているので、それぞれのアプリケーションに対して、2-1から2-3を順番に行ってください。
2-1. アプリケーションブロックの右下にカーソルをもっていくと3dotボタンが表示されます。
2-2. 3dotボタンをクリックするとメニューが表示されるので「DSL をエクスポート」を選択してください。それによりDSLファイルがダウンロードされます。
2-3. 今選んだアプリケーションのブロックとは別のブロックに対して2-1から実施してください。
```
# 結果
〇プロトタイプということで速度はもっさり、精度もそこそこ、時間制限でちょくちょく落ちる。
〇とはいえRPAのような座標指定が不要で、あいまいな自然言語による指示でも段階的に考えながら対応してくれているのがすごい!
例:
・通常見えない3dotボタンを探し出してくれる。
・(制限時間で連続性の確認は出来なかったが)次のアプリケーションブロックが右となりということはちゃんと認知してくれた。
・3dotボタンの右にある「タグを追加」がまちがって表示されてても、そのあと3dotボタンをちゃんと選択してくれた(1回目の動作の記憶?)

#まとめ
DSLのバックアップ自体は現時点では手で取った方が早いですが、そこは単に得意不得意があるというだけ。
そんなことよりも、RPAでは感じられない「リモートでつながっている仕事のパートナー感」がすごいです。
「ちょっとこれやっといて。終わったらおしえて」みたいなことが普通にできそうです。ちょっと感動します。

安全性の課題はまだありそうですが、これがリリース時点でどのようなかたちになるか、今から楽しみです!

いいなと思ったら応援しよう!