【AIの基礎を学ぶ(8)トークン】
皆さんこんにちは、JapanStep(ジャパンステップ)です。いつもJapanStep(ジャパンステップ)公式noteやMetaStep(メタステップ)を応援頂き、ありがとうございます。
さて、本日のテーマは「トークン」です。
生成AIやWeb3、暗号資産の話をするなかで、必ず出てくる「トークン」って何でしょうか?
「トークン」は、辞書で調べると「しるし」「象徴」といった意味があります。機械学習においては、テキストデータを処理する際に基本となる単位のことを指しますし、暗号資産の文脈では、法定通貨の代わりに商品購入やサービスを受けるために利用することができるものを指します。
まずは、機械学習の要素技術である「トークン」についてもう少し深堀りしていきましょう。
先日ご紹介した大規模言語モデル(LLM)においても、トークンはテキストの理解や生成において不可欠な要素です。テキストをそれぞれの単語、文字といった小さな単位のトークンに分割することを「トークン化」と呼びます。
トークン化には、①単語トークン化(句読点を無視し、意味を持つ最小単位の単語に分割)、②文字トークン化(文を句読点も含め、個々の文字に分割)、③句読点トークン化(文を単語に分割し、句読点を独立したトークンとして分割)などの種類があり、それぞれ分割の仕方が異なります。
例えば「今日は、雨ですね」をトークン化すると、①単語トークン化では、「今日」「は」「雨」「です」「ね」と分割されます。②文字トークン化では、「今」「日」「は」「、」「雨」「で」「す」「ね」と分割。③句読点トークン化では、「今日」「は」「、」「雨」「です」「ね」と分割されます。
OpenAIが公開している「Tokeniszer」を使うと、テキストのトークンを理解することができます(興味のある方は是非見てみて下さい)
一方、暗号資産の世界における「トークン」という文脈では、ブロックチェーンを利用する形で発行された通貨のことを指します。独自のブロックチェーンを持つようなビットコインやイーサリアムのようなものを「暗号資産」と呼び、独自のブロックチェーンを持たないものを「トークン」と呼ぶ場合が多いです。広義の意味では、暗号資産もトークンと呼ぶことが多いですが、明確に分けると上記のような分け方が一般的と言えます。
ここでの「トークン」は、企業や団体・個人で発行することができます。株式上場と違い、証券会社など仲介業者を通さずに発行することができ、資金調達をしたいプロジェクトでトークンを発行する「ICO(Initial Coin Offering)」という方法も最近では活用が進んでいます。
似たような言葉で「IEO(Initial Exchange Offering)」がありますが、IEOとICOの一番の違いは「トークンの発売元」です。 ICOではトークンをプロジェクトチームが発行し、IEOではトークンを取引所が販売しています。
「トークン」という言葉だけで、随分説明する内容が多岐にわたってしまいました(汗)1つ1つ掘り出すと、長くなってしまいますので、それはまた別のコラムで!
本日もお読み頂き、ありがとうございました。
スキやフォローを頂けると、コラムの更新頻度がアップすると思いますので、是非応援お願いします!
Web3に関する記事も、MetaStepではどんどん公開していますので、是非あわせてご覧ください。
JapanStep(ジャパンステップ)へのお問い合わせや、運営会社クロスアーキテクツお仕事のご相談は、公式HPのお問い合わせフォームよりお気軽にどうぞ!
ではまた次の記事でお会いしましょう!