Browser Use / Replit / Cline / ChatGPT Scheduled Tasks を触ってみた感想
最近、色々な AI ツールが話題になっていて面白いですね。
色々触ってみたので、雑多に個人的な感想を書きたいと思います。
各ツールの公式リンクは貼っておりますが、詳細な使い方は様々な記事があるため、この記事では所感くらいのニュアンスで見ていただけると幸いです。
Gemini API
Gemini の API をプログラムで利用したことがなかったので試してみました。
API トークンを発行する必要はありますが、基本的にドキュメント通りにやれば使用できました。
使い勝手としては、他のサービスと比較してもそんなに違いはないですね(今は LangChain のようなラッパーを通して使うのかもしれないですが)
ただ、個人的に GCP のコンソールが相変わらずよく分からないですw
料金はこちらに記載があります。
無料枠は充分にありそうですが、他のサービスと同様、がっつり使いたい場合は従量課金になってしまいます。
それよりも、 Google AI Studio なるものがあったことを初めて知りました。
この辺も OpenAI を意識している感じですかね。
余談ですが、Gemini は有料プランで契約はしてないのですが、最近 Deep Research が日本語対応もされたようなので、使ってみようかなと思ってます。
Browser Use
ブラウザを利用した自動化ツールのようです。
オープンソースになっているので、ライブラリをインストールすれば利用できます。
パッと使った感じは既存のブラウザ自動操作ツールのようにも感じましたが、指示を自然言語で書き、それを生成 AI がタスク分解してくれるので操作の過程が違いますよね。
LangChain を通して利用しているようです。
Gemini を含め、LLM サービスを利用する場合は LangChain の追加モジュールが必要ですが、この browser-use には依存モジュールとして一緒についてきます。
実際に利用する場合はこんな感じで LLM モデルを定義して Browser-Use に食べさせれば良いです。
from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(
model="gemini-1.5-flash",
# other options
)
Playwright もインストールするよう記載がありました。
Playwright のことを知らなかったのですが、有名なブラウザ操作のためのフレームワークでした。
これを使って操作しているようです。
クイックスタートのコードを実際に実行してみると、スタンドアロンの Chrome が立ち上がってスクレイピングしてそうです。
ブラウザの設定などはこちらです。
ヘッドレスも可能です。
Web UI
公式から UI の方も出ています。
どうしてもライブラリだけでは自分で整形をする必要があり、ちょっと使いにくいなぁとは思っていたので、このような UI があってくれると助かります。
Replit
このサービス上でアプリケーションを開発し、実行確認までできるサービスです。
以前 v0.dev を触ってみたのですが、それ以上に多くの言語に対応しています。
Webエディター付きで開発できるので、簡単なアプリであればこれだけでも開発できてしまいそうです。
Cloud 9 や Github Codespaces のときも思いましたが、もうローカル環境構築するというのは古いんですかね。とはいえ、コストがね、、
無料枠だとコードの自動適用がなく、あまり旨味を感じなかったので、ちゃんと使うのであれば、有料プランに入った方が良さそうです。
Pro プランであれば、毎月 25 ドル分のクレジットが付与されるので、ハードに使わなければ追加課金する必要もないんじゃないでしょうか。
Cline
VS Code の拡張機能としてリリースされたコード生成プラグインです。
各種 LLM に対応していて、指示を出すとファイルの生成もしてくれます。
前述の Replit のコード生成のようなことが自分の環境でもできそうです。
基本的にタスク単位で承認フェーズがあるので、勝手に何かされることはなさそうです。
コマンドも実行してくれます。
試しに、こんな感じで指示を出してみました。
(Next.js アプリケーションを作成して、ローカルサーバーを起動。さらにタイマーアプリケーションを作成する)
Create new Next.js project (project name is sample-next) and start up local server
Implement timer web application in sample-next
雑に指示を出しても Next.js のプロジェクト作成、およびファイルの作成までしてくれました。
作られたファイルはこのような簡易的なものだったので、手直しはかなり必要かなと思いますが、ボイラープレート的なファイルを作るにはちょうどいいのかなと思います。
これらを使ってみて
共通としては、LLM API のレートリミットやコストを気にしないといけない点が煩わしいですね。
AI エージェントは何かと LLM API を叩くので。
私は割とケチなので、コストダッシュボードを見ながらやってました。
個人では利用していきたいなと思いますが、業務利用だとまだ考慮する点が多いのかなと思います。
ChatGPT Scheduled Tasks
この記事を書いている中で、 OpenAI がスケジュールタスクの機能を出してきました。
今まで自作でスクリプトを組んでたりしましたが、公式でやってくれるならこれでいいのかなぁと思いました。
試しに自分の端末で「今日のニュースを要約して」と入力して毎日報告させているのですが、検索参照ページがいわゆる「今日のニュース」ではなく、「今日」と「ニュース」で検索した結果っぽくて、良い感じに本日のニュースにならないんですよね、、
タスク分解もこちらでちゃんと指定しないといけなさそうなので、使い方は今後調べていきたいと思います。