100ドルが1,569ドルになる——「トークン水増し請求」論文が暴いた、AIベンダーの値付けを疑え
Related Articles

100ドルの請求が1,569ドルになり得る。あなたはそれを検証できない。
Anthropicの評価額が9,650億ドルに達した。OpenAIを超え、AI業界の頂点に立つ数字だ。
だが、この記事で伝えたいのはそこじゃない。
その巨額マネーを支えている「トークン課金」という仕組みそのものに、構造的な欠陥があるという話だ。最近公開された論文が、AIプロバイダーによる「トークン水増し請求(Token Inflation)」が技術的に可能であり、しかもユーザー側がそれを検証するのはほぼ不可能だと指摘した。
結論から言う。あなたの会社が毎月払っているAPI代、本当に正しいか確認する手段がない。
これは地方の中小企業にとって、見過ごせない話だ。
—
トークン課金の仕組みと「見えないブラックボックス」
まず前提を整理する。ChatGPTやClaude、GeminiなどのAI APIは「トークン」という単位で課金される。1トークンは英語で約4文字、日本語だと1〜2文字程度。入力と出力、それぞれのトークン数に応じて料金が決まる。
例えばClaude 3.5 Sonnetなら、入力100万トークンあたり3ドル、出力100万トークンあたり15ドル。GPT-4oなら入力2.5ドル、出力10ドル。一見すると明朗会計に見える。
だが問題は、「そのトークン数が本当に正しいか」をユーザー側で確かめる方法がないということだ。
論文が指摘するのはこうだ。
- モデルのトークナイザー(テキストをトークンに分割するアルゴリズム)は非公開、または頻繁に変更される
- 推論過程で内部的にどれだけのトークンが消費されたかは、ユーザーには見えない
- APIレスポンスに含まれるトークン数は「自己申告」であり、第三者監査の仕組みがない
つまり、プロバイダーが「このリクエストは500トークン使いました」と言えば、それを信じるしかない。実際には300トークンだったとしても、あるいは逆に推論チェーンの内部処理で2,000トークン使っていたとしても、ユーザーにはわからない。
論文のシミュレーションでは、最大1,469%の水増しが技術的に可能だと示された。100ドルの請求が1,569ドルになる計算だ。
—
「水増し」は悪意だけの問題じゃない
誤解してほしくないのは、「AIベンダーが意図的に不正請求している」と断定する話ではないということだ。
問題の本質は、仕組みとして検証不可能な状態が放置されていることにある。
実際に起きうるシナリオを整理する。
1. トークナイザーの変更による「静かな値上げ」
モデルがアップデートされるたびに、トークナイザーも変わる可能性がある。同じ文章を処理しても、旧バージョンでは200トークンだったものが新バージョンでは280トークンになる——こういうことが、告知なく起きうる。料金表の「1トークンあたり○ドル」は変わっていないのに、実質的には40%の値上げだ。
2. 推論チェーン(Chain of Thought)の内部トークン消費
OpenAIのo1やo3のような「考えるAI」は、回答を生成するまでに内部で大量のトークンを消費する。この内部推論トークンにも課金されるが、その量が妥当かどうかをユーザーが判断する材料はない。「よく考えました」と言われて、それが50トークン分なのか5,000トークン分なのか、外からはわからない。
3. システムプロンプトの肥大化
APIを使う際、プロバイダー側が自動的に挿入するシステムプロンプトがある。安全性フィルターや動作指示など。このシステムプロンプトが肥大化すれば、ユーザーが意図しないトークン消費が毎回発生する。これも請求に含まれる。
どれも「不正」とは言い切れない。だが、ユーザーがコントロールできない領域でコストが膨らむ構造になっている。
—
中小企業にとって、これは「月数万円の話」じゃない
「うちはそんなに使ってないから関係ない」と思うかもしれない。
だが考えてみてほしい。地方の中小企業がAIを本格的に業務に組み込み始めたとき、API利用量は一気に跳ね上がる。
例えば、こんなケースだ。
- 問い合わせ対応のチャットボット:月間5,000件の問い合わせ × 平均800トークン(入出力合計)= 400万トークン
- 日報の自動要約:社員50人 × 20営業日 × 1,500トークン = 150万トークン
- 見積書の自動生成:月200件 × 2,000トークン = 40万トークン
合計590万トークン。GPT-4oクラスで月額換算すると数十ドル程度に見えるが、これが複数モデルの併用や、推論系モデルの利用、画像処理の追加などで膨らむと、月額数百ドル〜数千ドル規模になる。年間で数十万円〜百万円超だ。
ここに20%〜30%の「見えない上乗せ」があったとしたら?年間で数十万円が消えている計算になる。中小企業にとって数十万円は、パート1人分の人件費だ。
—
Anthropic 9,650億ドルの評価額が意味すること
ここでAnthropicの話に戻る。
9,650億ドル。日本円で約140兆円。トヨタの時価総額の3倍以上だ。この評価額は、将来のAPI収益への期待で成り立っている。
つまり、投資家は「世界中の企業がトークンに金を払い続ける」という前提に賭けている。
この構造を冷静に見ると、トークン課金の不透明さは、ベンダー側にとって「修正するインセンティブがない」問題だとわかる。透明性を高めれば、ユーザーは最適化を進め、無駄なトークン消費を減らす。それはベンダーの売上減少を意味する。
評価額9,650億ドルを正当化するためには、トークン消費量は増え続けなければならない。この構造的な利益相反を、ユーザー側が認識しておく必要がある。
—
じゃあ、中小企業はどうすればいいのか
抽象的な「透明性を求めましょう」では意味がない。今日からできることを整理する。
1. トークン消費量を自分で計測する仕組みを作る
APIレスポンスに含まれるトークン数を鵜呑みにせず、オープンソースのトークナイザー(tiktokenなど)で入力テキストのトークン数を自前で計算し、請求値と突き合わせる。差異が大きければ、それは「見えないコスト」だ。
2. 複数ベンダーで同じタスクのコストを比較する
OpenAI、Anthropic、Google、ローカルLLM。同じプロンプトを投げて、トークン数と料金を比較する。驚くほど差が出ることがある。あるタスクではClaude、別のタスクではGemini、定型処理はローカルLLMという使い分けが、コストを半分以下にすることもある。
3. 「トークン単価」ではなく「タスク単価」で考える
本当に重要なのは「1トークンいくらか」ではなく「見積書1通を作るのにいくらかかるか」だ。トークン単価が安くても、冗長な出力で大量にトークンを使うモデルなら、タスク単価は高くなる。逆に、トークン単価が高くても少ないトークンで的確に回答するモデルなら、結果的に安い。
4. ローカルLLMという選択肢を持つ
機密性の高いデータや定型的な処理は、ローカルで動かせる小型モデル(Llama、Phi、Gemmaなど)で十分なケースが多い。API代ゼロ円だ。初期のGPU投資(30万〜50万円程度)で、月額数万円のAPI代が消える。1年で元が取れる。
5. 月次でAPI利用レポートを作る
どのタスクに、どのモデルで、いくらかかっているか。これを月次で可視化するだけで、無駄が見える。「なんとなく便利だから使っている」状態が一番危険だ。
—
トークンが「商品先物」になる世界の危うさ
補足的だが、AIトークンを金や原油のようにデリバティブ(先物)取引の対象にしようという動きもある。
これは中小企業にとっては関係が薄いように見えるが、構造的には注意が必要だ。トークンが投機対象になれば、価格の乱高下が起きる。ある日突然、API単価が跳ね上がるリスクが生まれるということだ。電気代の市場連動プランで痛い目を見た企業があったのと同じ構造だ。
「固定価格プラン」や「年間契約での価格ロック」が提供されているなら、中小企業はそちらを選ぶべきだ。変動リスクを取れるのは、それを吸収できる体力のある大企業だけだ。
—
まとめ:疑え、計れ、比べろ
Anthropicの9,650億ドルという数字は、AI業界の熱狂を象徴している。だが、その熱狂の燃料は、世界中のユーザーが払うトークン代だ。
論文が示したのは、その課金の仕組みに構造的な不透明さがあるという事実。悪意の有無に関わらず、検証できない請求を毎月払い続けるのは、経営としてリスクだ。
中小企業がやるべきことはシンプルだ。
- 疑え:API請求のトークン数を鵜呑みにしない
- 計れ:自前でトークン数を計測し、差異を把握する
- 比べろ:複数ベンダー、ローカルLLMを含めてタスク単価で比較する
大企業は専任チームを置いてコスト最適化ができる。中小企業にはその余裕がない。だからこそ、仕組みで守る必要がある。月次レポート、ベンダー比較、ローカルLLMの併用。どれも大げさな投資は要らない。
AIの恩恵を受けるために、AIベンダーの言い値で払い続ける必要はない。
—
JA
EN