RAGは文書を足すほど精度が落ちる——中小企業の「小ささ」が、大企業のAIに勝つ構造的理由

結論から言う。データが多いほどAIが賢くなる時代は終わった。 RAG（検索拡張生成）に文書を突っ込めば突っ込むほど、回答精度は落ちる。これは感覚の話ではない。論文で数字が出ている。ワイオミング州交通局のデータを使った実験で、RAGに投

By Kai

June 12, 2026 | Last updated June 18, 2026

July 2, 2026

AI’s ‘Minimum Price’ Has Dropped Below 5,000 Yen a Month. 230M Parameters, Single GPU, 8GB Board—A Realistic Solution for SMEs to Start ‘Today’

June 26, 2026

Figma Spits Out Code, OCR Becomes Free, and E-Commerce Launches in 60 Seconds — A Breakdown of the Crumbling Costs of Outsourced Work

結論から言う。データが多いほどAIが賢くなる時代は終わった。

RAG（検索拡張生成）に文書を突っ込めば突っ込むほど、回答精度は落ちる。

これは感覚の話ではない。論文で数字が出ている。ワイオミング州交通局のデータを使った実験で、RAGに投入する文書数を54から1,128に増やしたところ、回答精度は75%から40%以下に急落した。文書を20倍にしたら、精度は半分になった。

つまり「たくさんデータを持っている大企業ほど有利」という常識が、RAGの世界ではひっくり返っている。

これは中小企業にとって、構造的な追い風だ。

なぜ文書が増えると精度が落ちるのか

原因は「ベクトル検索の希薄化」と呼ばれる現象にある。

RAGの仕組みはシンプルだ。ユーザーの質問を受け取り、関連しそうな文書をベクトル検索で引っ張ってきて、その文書を参考にしてLLMが回答を生成する。要するに「カンペを見ながら答える」仕組みだ。

問題は、カンペが増えすぎると何が起きるか。

文書が少ないうちは、検索で引っ張ってくる文書の大半が「当たり」になる。しかし文書が増えると、似ているけど微妙に違う文書、関連はあるが本質ではない文書が大量にヒットし始める。LLMはそのノイズ混じりのカンペを見て回答するから、当然、精度が落ちる。

54文書なら「この質問にはこの文書」とほぼ一対一で当たる。1,128文書になると「この質問に関係ありそうな文書が30件」となり、LLMはどれを信じていいかわからなくなる。

大企業が陥りやすい罠はここだ。社内の全部門のマニュアル、議事録、規程、FAQ、過去の報告書——何でもかんでもRAGに食わせれば賢くなると思っている。実際は逆だ。食わせるほどノイズが増え、回答は曖昧になり、現場は「使えない」と判断して離れていく。

中小企業の「小ささ」が武器になる構造

ここからが本題だ。

中小企業のデータは、そもそも少ない。そして、業務範囲が狭い。これが圧倒的な強みになる。

例えば、従業員30人の製造業を考えてみてほしい。扱う製品は数十種類、取引先は数十社、業務マニュアルはせいぜい数十ページ。このデータをRAGに入れたらどうなるか。

文書数は数十〜数百。検索の希薄化はほぼ起きない。質問に対して「当たり」の文書がピンポイントで返ってくる。結果、精度は高い水準を維持できる。

しかも、データの質が均一だ。大企業のように部門ごとに用語がバラバラ、フォーマットが統一されていない、という問題が起きにくい。10人の会社なら、全員が同じ言葉で同じことを指している。この「用語の一貫性」が、ベクトル検索の精度を底上げする。

具体的な数字で言おう。

大企業がRAGシステムを構築する場合、データの整備・クレンジングだけで数百万〜数千万円かかることがある。部門横断のデータ統合、用語の標準化、権限管理——これらすべてが必要になるからだ。

一方、中小企業なら、業務に直結するマニュアルと過去の問い合わせ履歴を整理してRAGに入れるだけで動く。クラウドのベクトルDBとAPIを使えば、月額数千円〜数万円で運用できる。初期構築も、やり方次第では数十万円で済む。

300万円かけて精度40%の大企業RAG vs 30万円で精度75%の中小企業RAG。

この構図が、いま現実に起きている。

「ドメイン特化」は戦略ではなく、中小企業の自然体

大企業がRAGの精度を上げようとすると、「ドメイン特化」のアプローチを取る必要がある。つまり、全社横断ではなく、部門ごと・業務ごとにRAGを分割して構築する。これは正しいアプローチだが、組織が大きいほど実行コストが跳ね上がる。

中小企業は違う。そもそも業務ドメインが絞られているから、意識しなくても「ドメイン特化RAG」になる。戦略として選んでいるのではなく、自然体でそうなる。

この差は大きい。

大企業が「RAGの精度が出ない」と言ってコンサルに数百万払い、データ設計をやり直し、半年かけて再構築している間に、中小企業は「とりあえず今ある文書を入れてみた」で動くRAGを手に入れられる。

もう一つの落とし穴——AIの「偽の自信」

精度の問題はRAGだけではない。LLMエージェント全般に「偽成功」という厄介な特性がある。

これは、AIが「タスクを完了した」と自信満々に報告するが、実際には失敗しているという現象だ。研究によれば、特定のベンチマーク環境下で、AIが「成功した」と判断したケースのうち、相当数が実際には不正確な結果だった。

この問題は、データが大規模で複雑なほど顕著になる。大企業の複雑な業務フローの中でAIエージェントを走らせると、AIは「それっぽい回答」を自信たっぷりに返すが、現場の人間が見れば明らかに間違っている——という事態が頻発する。

中小企業の場合、業務の複雑さが限定的だから、AIの回答が正しいかどうかを現場の人間がすぐに判断できる。社長自身が「これは違う」と気づける規模感。このフィードバックの速さが、RAGの精度改善サイクルを加速させる。

大企業では、AIの回答が間違っていても、それに気づくまでに何層もの承認プロセスを経る。中小企業なら、使った人がその場で「違う」と言って、その日のうちにデータを修正できる。

で、結局どうすればいいのか

中小企業がRAGで成果を出すためのポイントは3つだ。

1. 入れる文書は絞る。「全部入れ」は最悪手。

業務に直結する文書だけを厳選して入れる。「いつか使うかも」という文書は入れない。文書数が少ないことは弱みではなく、精度を保つための最大の武器だ。

2. まず1業務で試す。全社展開は後。

「見積もり作成」「顧客からの問い合わせ対応」「製品仕様の確認」——どれか一つに絞って、小さく始める。そこで精度が出ることを確認してから、次の業務に広げる。

3. 現場の「違う」を即反映する仕組みをつくる。

RAGが間違った回答を返したとき、現場の人間がワンクリックでフィードバックできる仕組みを入れる。このサイクルが回れば、RAGの精度は使うほど上がる。大企業には真似できないスピードだ。

小さいことは、もう弱みじゃない

AIの世界では長らく「データを持っている者が勝つ」と言われてきた。それは学習データの話であって、RAGの運用においては真逆の構造が生まれている。

データが少ないから精度が出る。業務が狭いからノイズが入らない。組織が小さいから改善が速い。

中小企業の「小ささ」は、AI活用においてはじめて、構造的な優位性に変わった。

これは一時的なトレンドではない。RAGの仕組み上、ベクトル検索の希薄化問題は文書が増えるほど必ず発生する。技術が進化しても、この構造は簡単には変わらない。

大企業の真似をする必要はない。むしろ、大企業にはできない「小さく、速く、尖ったRAG」を武器にすべきだ。

文書54件で精度75%。この数字を、自分の会社の武器に変えられるかどうか。答えは、まずやってみた先にしかない。

—

TOPICS

WORLD INSIGHT

RAGは文書を足すほど精度が落ちる——中小企業の「小ささ」が、大企業のAIに勝つ構造的理由

結論から言う。データが多いほどAIが賢くなる時代は終わった。

なぜ文書が増えると精度が落ちるのか

中小企業の「小ささ」が武器になる構造

「ドメイン特化」は戦略ではなく、中小企業の自然体

もう一つの落とし穴——AIの「偽の自信」

で、結局どうすればいいのか

小さいことは、もう弱みじゃない

POPULAR ARTICLES

Seven Tactics to Cut Cloud LLM Token Costs by 70%: Breaking Down the “Savings Structure” That Reduces Monthly Expenses from 100,000 Yen to 20,000 Yen for Small and Medium Enterprises

Readings from Former BOJ Governor Shirakawa’s British Parliament Testimony

Fuji TV Secures Exclusive F1 Rights: DAZN Exits and a New Era Begins in 2026

Putting an End to Runaway Solar Power? Japan’s New Regulations

Related Articles

Chrome Automatically Downloads a 4GB AI Model—What Small and Medium-Sized Enterprises Stand to Lose and How to Protect Themselves in the Era of ‘AI Without Knowing’

Building an EC Site in 60 Seconds, Video Production for 5,000 Yen—What Will Small Businesses Compete With in a World Where ‘Production Costs’ Have Disappeared?

New Song Production Cost Drops from 3 Million to 30,000 Yen, 44% of Music is AI-Generated — The Fundamental Shift in ‘Content Value’

Ford Brings Back Workers, Oracle Cuts 20,000—What Is the True Cost of the AI Replacement Line?

POPULAR ARTICLES

Seven Tactics to Cut Cloud LLM Token Costs by 70%: Breaking Down the “Savings Structure” That Reduces Monthly Expenses from 100,000 Yen to 20,000 Yen for Small and Medium Enterprises

Readings from Former BOJ Governor Shirakawa’s British Parliament Testimony

Fuji TV Secures Exclusive F1 Rights: DAZN Exits and a New Era Begins in 2026

Putting an End to Runaway Solar Power? Japan’s New Regulations

TOPICS

WORLD INSIGHT