月3万円で100万ユーザー対応——だが「成功」の半分はウソだった。AIカスタマーサポートの使える境界線を、コストで引き直す
Related Articles

結論から言う
AIカスタマーサポートの導入コストは劇的に下がった。月3万円レベルでAPIを叩けば、100万ユーザー規模の問い合わせを「一応」さばける時代だ。
だが、ここに落とし穴がある。
AIエージェントが「対応完了」と報告したタスクのうち、45〜75%は実際には完了していない。いわゆる「偽成功」問題だ。つまり、コストが下がった分だけ「見えない損害」が積み上がるリスクがある。
月3万円で回せるなら導入しない手はない——本当にそうか? この記事では、AIサポートの「使える境界線」を導入コストと損害コストの両面から引き直す。
—
月3万円の内訳——何がそこまでコストを下げたのか
まず「月3万円」の根拠を整理する。
現在、GPT-4クラスのAPIは入力100万トークンあたり数ドル〜十数ドルで利用できる。カスタマーサポートの1件あたりの平均トークン数を入出力合計で2,000トークンと仮定すると、月10万件の問い合わせ処理で必要なトークンは約2億トークン。API費用はモデルと価格帯にもよるが、概算で2〜5万円程度に収まる。
これに加えて、RAG(検索拡張生成)用のベクトルDBやFAQデータの整備コストがあるが、PineconeやSupabaseの無料〜低価格プランで十分立ち上がる。インフラ込みで月3〜5万円。これが「月3万円で100万ユーザー対応」の実態だ。
3年前なら、同規模のコールセンターを外注すれば月300万円は下らなかった。100分の1のコスト。この数字だけ見れば、中小企業にとって革命的だ。
だが、コストが下がった先に何が起きるか。ここを考えないと痛い目に遭う。
—
Nubank事例——1億ユーザーで実証された「構造」
ブラジルのデジタルバンクNubankは、1億ユーザー超のカスタマーサポートにAIエージェントを本格導入した事例として注目されている。
ポイントは、単にLLMを繋いだだけではないことだ。
- コンテキストエンジニアリング:ユーザーの取引履歴、過去の問い合わせ、カードの配達状況などを構造化してプロンプトに注入する仕組みを構築
- 人間介入ループ:AIが判断に迷うケースは人間にエスカレーション。その結果をプロンプト改善にフィードバック
- 大規模A/Bテスト:カード配達関連の問い合わせでAI対応と従来対応を比較し、ネットプロモータースコア(NPS)が37ポイント改善
NPS37ポイント改善は尋常ではない。通常、NPS改善は5ポイントでも大きな成果とされる業界で、AIが人間を超えた瞬間だ。
ただし、Nubankはこの仕組みを構築するために専門のMLチームを抱え、評価基盤やモニタリングに相当な投資をしている。大企業だからできた——と思考停止するのは簡単だが、ここで注目すべきは構造のほうだ。
「コンテキストを整理して渡す」「判断に迷ったら人間に回す」「結果を測定してプロンプトを直す」。この3つのループ自体は、中小企業でも月3万円の範囲で再現できる。必要なのは大規模なMLチームではなく、自社の業務知識をどう構造化するかという設計力だ。
—
「記憶エラー率95%」——AIの記憶は使い物になるのか
ここからが本題の暗い話だ。
最近の研究で、AIエージェントに「記憶」機能を持たせた場合——つまり過去の会話や学習内容を保存・検索させた場合——そのリトリーバル(検索・呼び出し)の精度が著しく低いことが報告されている。
具体的には、記憶管理ツールを使ったAIエージェントにおいて、記憶の呼び出しエラー率が最大95%に達するケースが確認されている。ヒューリスティックなスコアリングで「重要な記憶」を選別する仕組みが、実際には的外れな情報を引っ張ってきたり、肝心な情報を落としたりする。
これが意味するのは、AIに「学習させた」つもりの知識が、実際の対応時にはほぼ使われていない可能性があるということだ。
FAQを食わせた、マニュアルを読み込ませた、過去の対応履歴を入れた——それで安心していないか? 記憶の呼び出し精度が低ければ、AIは「知っているはずの情報」を無視して、もっともらしいが間違った回答を生成する。
—
偽成功問題——「対応完了」の半分はウソ
記憶エラーと密接に関連するのが「偽成功」問題だ。
AIエージェントがタスクを実行し、「完了しました」とステータスを返す。しかし実際に確認すると、タスクは未完了、あるいは誤った処理がされている。研究によれば、この偽成功率は45〜75%に達する。
カスタマーサポートに置き換えるとこうなる:
- 顧客:「先月の請求が二重になっています」
- AI:「確認しました。二重請求分を返金処理いたしました」(←実際には処理されていない)
- 顧客:翌月も二重請求が続く → クレーム → 信頼喪失
月3万円で10万件さばけたとして、そのうち5万件が偽成功だったら?
1件あたりの再対応コスト(人間による確認・修正・謝罪)を500円と見積もっても、月2,500万円の隠れコストが発生する。月3万円のAPI代が霞むどころの話ではない。
—
じゃあ、どこに「使える境界線」を引くか
ここまで読んで「やっぱりAI使えないじゃん」と思った人、ちょっと待ってほしい。
問題は「AIを使うかどうか」ではなく、「どの範囲で使うか」だ。
境界線①:回答の確定度で分ける
FAQの定型回答、営業時間の案内、ステータス確認など、正解が一意に決まるタスクはAIに任せて問題ない。偽成功が起きにくい。逆に、返金処理や契約変更などアクションを伴うタスクは、AIが判断しても実行は人間が確認するフローにする。
境界線②:偽成功検出器を入れる
研究では、軽量なTF-IDFベースの検出器を後段に置くことで、偽成功を4〜8倍の精度で回収できることが示されている。コストはほぼゼロに近い。つまり、AIの出力を別の軽量モデルでチェックする「二重構造」にするだけで、損害コストを大幅に圧縮できる。
境界線③:記憶に頼らず、コンテキストを都度構築する
記憶エラー率95%の問題に対する現実的な解は、「AIに記憶させない」ことだ。代わりに、問い合わせのたびにデータベースからリアルタイムで情報を引き、構造化してプロンプトに注入する。Nubankがやったコンテキストエンジニアリングと同じアプローチだ。記憶に頼るより、毎回「カンペを渡す」ほうが精度は高い。
—
中小企業こそ、この構造で勝てる
ここまでの話を中小企業に落とし込む。
大企業は100万ユーザー規模で偽成功の損害を吸収できる体力がある。中小企業にはない。だからこそ、境界線の引き方が生命線になる。
逆に言えば、中小企業には有利な点がある。
- 問い合わせパターンが少ない:大企業の数千パターンに対し、中小企業は数十〜数百パターン。正解が一意に決まるタスクの比率が高い
- 業務知識が社長の頭の中にある:構造化すべき知識の総量が少なく、コンテキストエンジニアリングの設計が早い
- 判断の速さ:「この範囲はAI、ここは人間」の境界線を、稟議なしで翌日から引き直せる
月3万円のAPI代。偽成功検出のTF-IDFフィルターはほぼ無料。人間が確認するのは全体の2〜3割だけ。この構造なら、月5〜10万円で、従来の月50万円分のサポート体制を実現できる。
—
で、結局どうすればいいのか
- まず定型回答だけAIに任せる。FAQ対応、営業時間案内、注文ステータス確認。ここから始めれば偽成功リスクはほぼゼロ
- TF-IDFベースの偽成功検出を入れる。AIの出力を軽量モデルでチェックする仕組みを後段に置く。実装は数時間レベル
- 記憶機能は使わない。問い合わせごとにDBから情報を引いてプロンプトに注入する。記憶に頼った瞬間、エラー率が跳ね上がる
- 週次でAIの回答を10件サンプリングして人間が確認。これだけで偽成功の傾向が見える。月次レポートを待つ必要はない
- アクションを伴うタスクは人間承認を挟む。返金、契約変更、個人情報の修正。ここをAIに丸投げした瞬間、損害コストが爆発する
AIカスタマーサポートは「使えるか、使えないか」の二択ではない。どこまで任せるかの設計が全てだ。月3万円の魔法に飛びつく前に、偽成功1件あたりの損害額を計算してみてほしい。その数字が、あなたの会社の「使える境界線」を教えてくれる。
—
JA
EN