トークンとは？

ChatGPTのような生成AIにおける「トークン」は、多くの人が直感的に考える「単語数」や「文字数」、あるいは「ファイルサイズ」とは少し異なる、AIが言語を処理するための独自の基本単位を指します。

結論から言うと、トークンは「AIが文章を意味のある最小単位に分割したもの」です。そして、この分割のされ方が言語によって大きく異なります。

1. トークンとは何か？
2. 具体例で示す英語と日本語での違い
3. なぜトークンという単位を使うのか？
4. トークン数が重要になる場面
5. ファイルサイズとの関係
6. トークン管理の実践ツール
まとめ

1. トークンとは何か？

AIは人間のように「単語」や「文字」をそのまま理解しているわけではありません。AIは、与えられた膨大なテキストデータを統計的に学習し、「意味の塊」として最も効率的に扱える単位に文章を分割します。この分割された一つひとつのパーツが「トークン」です。

トークンには以下のようなものがあります。

単語そのもの: the, is, apple のような頻出する短い単語。
単語の一部（サブワード）: Tokenization という単語は Token と ization のように分割されることがあります。
文字: A, B, C や、日本語の あ, い, う など。
句読点や記号: , . ! など。
スペース: 単語の先頭のスペース is のように、スペースを含めて1トークンと見なされることもあります。

身近な例え:

レゴブロックを想像してください。文章全体が大きな作品だとすると、トークンは様々な形や大きさの「ブロック」です。AIは、この無数のブロック（トークン）の組み合わせ方や繋がり方を学習し、文章を生成したり解釈したりしています。

2. 具体例で示す英語と日本語での違い

このトークンという概念が特に重要になるのが、言語による違いです。

英語の場合

英語は単語がスペースで区切られているため、比較的「1単語≒1トークン」に近くなります。

例文: ChatGPT is a powerful AI.

この文章は、おおよそ以下のようにトークン化されます。

[Chat][GPT][ is][ a][ powerful][ AI][.] -> 7トークン

経験則: 英語では、およそ100トークンで75単語程度と言われています。

日本語の場合（ここが重要）

日本語は、スペースで単語が区切られておらず、ひらがな・カタカナ・漢字が混在するため、トークン化が非常に複雑になります。多くの場合、文字単位や短い単語単位で細かく分割されます。

例文: 「AIはトークンという単位で文章を処理します。」

この文章は、モデルにもよりますが、おおよそ以下のようにトークン化される可能性があります。

[AI][は][トークン][という][単位][で][文章][を][処][理][します][。] -> 12トークン

場合によっては、さらに細かく分割されます。

[AI][は][ト][ー][クン][と][いう][単][位][で][文][章][を][処][理][し][ます][。] -> 17トークン

経験則:

ひらがな・カタカナ: おおよそ1文字が1〜2トークン
よく使われる漢字: 1文字が1〜2トークン
あまり使われない難しい漢字: 1文字が2〜3トークン以上になることも

この結果、同じ意味の内容でも、日本語は英語に比べてトークン数が1.5倍から3倍近く多くなる傾向があります。

言語別トークン効率比較（英語基準1.0）

言語	トークン効率	例（同じ意味の文）
英語	1.0×	“The cat is cute”（4トークン）
日本語（漢字）	2.0～3.0×	「猫はかわいい」（4トークン）
日本語（ひらがな）	2.5～3.5×	「ねこはかわいい」（5トークン）

3. なぜトークンという単位を使うのか？

AIが文字や単語ではなく、トークンという単位を使うのには、以下のようなメリットがあるからです。

語彙数の効率化: 世の中にあるすべての単語を辞書に登録するのは非効率です。トークン（特にサブワード）を使うことで、限られた数のブロックの組み合わせで、無限に近い単語や表現に対応できます。
未知語への対応: decentralization のような複雑な単語や、新語・造語が出てきても、AIは de central ization のように知っているトークンに分解して意味を類推できます。
文法構造の学習: -ing や -tion のような接尾辞、un- や re- のような接頭辞をトークンとして学習することで、AIは文法的な構造も効率的に捉えることができます。

4. トークン数が重要になる場面

トークンを理解することがなぜ重要かというと、AIサービスの料金や性能限界に直結するからです。

APIの利用料金: OpenAIやGoogleなどのAIサービスをAPI経由で利用する場合、料金は**「使用したトークン数」**に基づいて計算されます。入力（プロンプト）と出力（AIの応答）の両方がカウントされるため、日本語のようにトークン効率が悪い言語は、英語に比べて利用料金が割高になります。
コンテキストウィンドウ（Context Window）: 各AIモデルには、一度に処理できるトークンの最大量（コンテキストウィンドウ）が定められています。例えば「最大4096トークン」というモデルでは、入力と出力を合わせて4096トークンまでしか扱えません。これを超えると、古い情報を忘れたり、エラーになったりします。長文の要約や複雑な対話を行う際には、この上限を意識する必要があります。
処理効率:
トークン数が多いほど応答時間が延び、リアルタイム性が低下。

5. ファイルサイズとの関係

トークンはテキスト内容に依存し、ファイルサイズとは直接リンクしません：

非テキストファイル（画像/音声）:
画像は解像度に応じて85～8,000トークン、音声は1分あたり150～200トークンに換算されます。
PDF/ドキュメント: テキスト部分のみがトークン化され、画像や書式は無視されるか別途換算。

✅ 例: 1,000文字の日本語記事 → 約1,000トークン（GPT-4）、同じ内容の英語なら300～400トークン。

6. トークン管理の実践ツール

正確なトークン数を把握するための代表的なツール：

OpenAI Tokenizer: GPTシリーズ向けの公式カウンター。
Anthropic Token Counter: Claude専用のカウンター。
LLM Token Calculator: 複数モデルの料金を比較。

Just a moment...

まとめ

トークンは「ファイルサイズ」ではなく、AIがテキストを分解・理解するための最小単位です。日本語は英語よりトークン数が増えやすく、コストや処理効率に直結するため、プロンプト設計時には特に注意が必要です。効率的な利用には、対象モデルのトークナイザー特性を理解し、ツールを活用した事前見積もりが不可欠です。