OpenAI GPT3 API Taokenizerを、Pythonで動作させる
OpenAI API GPT-3を用いる場合、リクエストあたり最大トークンは4097に制限されており、リクエストあたりのコストもトークンによって換算されます。そのため、トークンカウントは、GPT-3を用いる上で重要になります。
GPT-3のTalkenizerはGPT2と同一のため、GPT2のTalkenizerを用ます。
>>> from transformers import GPT2TokenizerFast
>>> tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")
>>> tokenizer("Hello world")['input_ids']
[15496, 995]
>>> tokenizer(" Hello world")['input_ids']
[18435, 995]
上記コマンドで、返される値は、Tokenではなく、Token IDであるため、Tokenをカウントする場合は、len等で、要素数に変換します。
>>> len(tokenizer("Hello world")['input_ids'])
2
また、Tokenは、OpenAIのサイトでも確認できますので、Pythonでの出力結果と、比較することが可能です。