自社用生成AI設計の見直しサイクル
生成AIを使った社内システムの設計・維持管理において難しいのは新しい動向を開発済や開発中のシステムにどう反映させるかです。
生成AIの変化は速い
企業におけるカスタム生成AIを考える上で見直す必要があったイベントは以下の通りです(動画やソフトウェア開発は除く):
2月 GoogleがGemini 1.5 Proをリリース、最大コンテクストウィンドウが1Mトークン
3月 AnthropicがClaude 3をリリース
4月 OpenAIがGPT-3.5 Turbo企業カスタムモデルを提供
5月 OpenAIがGPT-4oをリリース、GPTsを無料ユーザに開放
7月 OpenAI が安価な GPT-4o miniをリリース
8月 Anthropic がClaude 3.5をリリース
9月 OpenAIがo1-preview, o1-miniをリリース
他にもOSSの生成AI開発環境や MicrosoftのCopilotシリーズ、Azure AI Studioの機能強化なども検討の必要があります。
比較評価のリードタイム
機能はもちろん、コンテクストウィンドウサイズやAPIコストが変われば評価が必要です。
評価のリードタイムをどれくらい短くできるかは体系的な評価方法と評価環境と人員を維持しているかどうかにかかっています。
単なるモデルの自社向け適合性評価でも1-4週間はかかると思います。
ユーザインタフェースを含めたエンドーエンドシステムではもっとかかります。
コンテクストウィンドウサイズが変わる場合には、RAG(検索拡張生成)のためのベクトルデータベースなどの再構築が必要になる場合もあります。動的に最新データが反映されるような環境ではさらに検証に特別な運用や考察が必要になります。
システムの規模によりますが、エンドユーザへ新しいサービスを提供するテストや教育を除いても1-2ヶ月はかかると考えられます。
3ヶ月毎にこれを繰り返すのは相当に担当部門の負荷になります。
カスタム生成AIの見直しの間隔
企業でそれなりの人数で使っているなら、6ヶ月に1度の見直しが必要です。3ヶ月に1度、中間的な小規模な検証ができればなおいいと思います。
最低でも1年に1度は棚卸が必要です。
個人で専用のGPTsなどを作っている場合は自分用の評価だけすればいいので3ヶ月に1度でも大丈夫です。
むすび
2023年に開発した自社カスタム生成AIでいまだにRAGのチャンクサイズが1Kバイトなんてこともありがちです。安定的に運用することは重要ですが、作りっぱなしはいけません。
コストが下がれば試行回数を増やして精度を上げることも可能です。
モデルがかわればプロンプトエンジニアリングも変わります。
生成AIの最新動向を反映し、直すべきところはすぐに追従して最新モデルの機能を最大限に生かしたいものです。