生成AIで業務ツール作成を比較!ChatGPT-4o vs Claude 3.5 sonnet vs tsuzumi
こちらの記事の続きです。
生成AIを利用して業務ツールを自動生成するという試みを行い、ChatGPT-4o、Claude 3.5 sonnet、そしてNTTの「tsuzumi」を比較しました。この記事では、それぞれのAIの特性やパフォーマンスを基に、実際のツール作成プロセスと結果について詳しく紹介します。
ツール作成の要件
各AIに以下の要件を提示しました。(全量は別途この記事内で公開しています。)
ツール管理
ツール名、説明、URL、カテゴリーなどの情報を管理
ツールの追加、編集、削除をサポート
JSON操作
データのエクスポートとインポートが可能
ローカルストレージの利用でデータの永続化を実現
UI/UX
リスト表示と詳細情報の展開機能
ステータスメッセージやリアルタイムJSON表示
基本設計
フロントエンドはHTML、CSS、JavaScript
JSON5を用いたデータ処理
AI別の結果
結論から言えば、コーディングに関しては、Claude>ChatGPT>tsuzumiの印象でした。ClaudeとChatGPTは動くものを作ってくれましたが、tsuzumiは1発では動きませんでした(エラー)。これらは指示の仕方にも問題はある可能性はあります。
UI面で評価すると、Claudeの方が人間にとって使いやすいと感じました。
1. Claude 3.5 sonnet
コーディング結果: 要件通りの動作をほぼ一発で実現。
UI評価: 人間工学的に見て使いやすいインターフェースを生成。
コメント: 総合的に最も優れた結果を出したAI。
2. ChatGPT-4o
コーディング結果: 動作するツールを作成できたが、微修正が必要だった。
UI評価: 標準的なレベルだが、細部の調整が求められる場面が多い。使いづらいかな。
コメント: 総合性能は高いが、Claudeには一歩及ばない印象。
3. tsuzumi
コーディング結果: 初回は動作せず、エラー修正が必要だった。
UI評価: そもそもレンダリングできず。実用性には改善の余地あり。
コメント: 国産LLMとしての特化性を感じさせる部分もあるが、現時点では他AIに劣る。そもそも、こういった用途は想定されていない可能性があります。
以下が初手作成されたコードです。上から順に、tsuzumi、Claude 3.5 sonnet、ChatGPT-4o、Gemini 1.5 proです。
↓これらを踏まえて最終的に作成したもの。(Claudeベース)
しかし、いろいろサンプルを提示してもらって組み合わせるのも面白いですね。
(↑本当はファイルをアップロードしたかったのですが、noteのエディターがバグって、アップロードしてもビクンと画面が動いて消えてしまうので、やむを得ず。)
プロンプトは以下となります。参考としてChatGPTとのやりとりも載せます。
そもそも、今の対話型AIであれば、有償レベルのものはIQ100を超えています。そのため、もっと雑に指示したとしても良いように作ってくれます。それを受けて「こうしてほしい」と依頼を出すのが結局楽だとも思います。
余談
今回のツール作成は、noteで公開しているWEBアプリを整理する目的でも進めました。(そもそも公開もGitHubを使えば良かった話ですね。今更ですが。)
(名前がね、たぬポータルだとアレになるのでね…)
まとめ
各AIにはそれぞれの強みと弱みがありますが、特にClaude 3.5 sonnetはコーディング面とUI面のバランスが取れており、業務ツールの作成に適していると感じました。一方で、「tsuzumi」は国産LLMとして業務特化型の可能性を秘めており、今後の進化に期待が持てます。生成AIの進化を体感できるプロジェクトとして、非常に興味深い結果が得られました。
もっとも、このような用途は想定されておらず、例えば特定の企業のQ&Aのチャットボットであったり、窓口のサポートであったり、そうであれば本来の力を発揮できる可能性があります。
ちなみに、コーディング以外のタスク(記事要約など)はそれぞれ大差なかったため省略しています。気になる方はぜひ、登録して確かめてみてください!