見出し画像

生成AIサービスのコストの話

AIサービスの利用者として、何に費用が発生しているのかを把握しておくこと損はないだろうと思い、今回のブログでは生成AIのコストに関して書いています。AIベンダーは多くの場合、そのサービスの裏側にGPTなどLLM(大規模言語モデル)を使用して、機能を実装しています。 皆さんは、生成AIサービスで「使用回数に制限がある」ものを見たことはありませんか?GPTを利用したサービスの場合、最大で1回のユーザー質問への回答に約100円($0.68)かかります。下の画像のように、モデルによって異なりますが、OpenAIの最新モデルを使用した場合、このくらいの費用が発生します。1回100円が高いか安いかは、そのツールが提供する価値次第です。しかし、このコスト感は、AIベンダーが使用制限を設ける十分な理由になっています。

OpenAI GPT API Pricing Calculator

少し詳しく解説していきます。GPTには複数の主要モデルがあります。その中で現在最高性能なのが「gpt-4o」です。このモデルのコストを理解するために必要な要素を以下です。

  • Context window: 128,000 tokens(Max output tokens 4,096 tokens)[参照]

  • $5 / 1M input tokens [参照]

  • $15 / 1M output tokens [参照]

Context windowとは、GPTのような大規模言語モデルが一度に処理できるトークン数の上限を指します。上記から、「gpt-4o」のContext windowは128,000トークンで、そのうち出力に使えるトークン数の上限は4,096です。ユーザーが1回質問するごとに最大の入力(124,000トークン)と出力(4,000トークン)を消費すると仮定した場合、コストの計算は以下です。

1回の入力で想定される最大値:

  • Cost for 124,000 tokens = 124,000 ÷ 1,000,000 × $5 = $0.62

1回の出力で想定される最大値:

  • Cost for 4,000 tokens = 4,000 ÷ 1,000,000 × $15 = $0.06

結果、1回の入力と出力で想定される最大値の合計は$0.68となります。実際には毎回最大トークン数を消費するわけではないので、毎回$0.68かかるというのは大げさですが、例えば、1つの判例で5万トークンを消費すると考えると、現実的なシナリオと言えます。また、1回あたりのトークン数が少なくても、ユーザーが繰り返し質問すると、トークンの消費が積み重なり、結果的にコストが嵩む可能性があります。
これがLLM(大規模言語モデル)を使用した機能を持つAIベンダーが抱えているコスト構造です。実際には、トークンを節約するために様々な工夫が行われています。また、GPTのコスト自体も技術の進歩、競争の激化を経てどんどんと安価になってきています。AIベンダーは他のテクノロジーも組み合わせてサービスを提供しているため、「このコストの何倍がサービス料金です」と単純に言えるわけではありません。しかし、このブログの読者にとって「こんなところに料金がかかるんだ」と気づくきっかけになれば幸いです。


いいなと思ったら応援しよう!