[GPT-API]Tokenシステム~gptの世界では言葉がトークン単位に分けられる~
パルパルと相棒のGPT、合わせてパルPTです!
以前のnoteでchatGPTだけでなくAPI(Playground)を使ってより高度にGPTを使用する話をしました。
そのAPIをより使いこなすためにトークン(token)を意識したプロンプトやセットアップは大事です!
今回はGPTの世界での"文字数"にあたるトークン(token)について紹介します。
トークンシステムの基本
GPTでは、文章を小さな単位"トークン"に分けて処理します。
例えば、
このようなトークンに分けることで、コンピュータが理解しやすくなります。そして、それぞれのトークンに数字のようなIDを割り当てています。
Point: トークンシステムは、文章を小さな単位に分けてコンピュータが理解しやすくする方法です。
トークンの上限とその影響
GPT-3.5やChat GPTのようなAIモデルは、一度に処理できるトークンの数に限りがあります。
例えば、GPT-3.5は一度に最大4096トークンまで、GPT-4は8192トークンまで処理できます。このため、文章を入力するときには、トークンの数を意識して収まるように書くことが重要です。
Point: トークンの上限を意識して、入力することが重要です。
トークン数を削減する~英語編~
日本語の方が英語よりトークン数が多くかかります。
例えば、
なぜでしょうか。
トークン区切りごとに色分けされている箇所を見ると、"student"が1トークン換算になっているように、単語でトークンが区切られることが多くなっています。
一方日本語では、
一字ごとに分けるどころか、読み仮名換算しているような部分も見られます。(私→わたし)
なので長い文書でトークン数が足りない時は、DeepLなどで英語に機械翻訳してから入れると良いです。
Point: 英語の方が日本語よりもトークン数が節約できる。
トークンを数えるopenAI公式サイト(Tokenizer)
文章を入力すると、GPTでは何トークンなのかを教えてくれます!
まとめ
トークンシステムは、文章を小さな単位に分けて処理します。英語の場合、日本語よりもトークン数が節約できることがあります。トークンの上限を意識して、良いchatGPTライフを…!