「社内データを食わせれば賢くなる」は嘘だった——ファインチューニングで幻覚が増える研究結果が、中小企業のAI投資の常識を壊す
Related Articles

結論から言う。「AIに専門データを学習させるほど、嘘が増える」
「社内データを食わせれば、AIは賢くなる」。
この常識、もう捨てたほうがいい。
最新の研究が示したのは、科学データでファインチューニングしたLLMは、むしろ幻覚(ハルシネーション)が増えるという事実だ。専門知識を教えれば教えるほど、AIは自信満々に嘘をつくようになる。
これは学術の話だけじゃない。中小企業が「うちのデータで学習させよう」と数百万円かけてファインチューニングしようとしているなら、一度立ち止まって読んでほしい。
—
ファインチューニングしたら、全指標で「信頼性が下がった」
論文「Finetuning with Scientific Data Increases Hallucinations」の結果はシンプルかつ衝撃的だ。
研究チームは、科学データでファインチューニングされた18のLLMに対し、2,500件のプロンプトで事実性を評価した。結果はこうだ。
- すべての幻覚タイプで、事実の信頼性が低下した
- モデル内部の確信度は下がっているのに、出力される文章はより断定的になった
- つまり「自分でも分かっていないのに、堂々と嘘をつく」状態が生まれた
これがどういうことか、現場で考えてみてほしい。
例えば、製造業の品質管理データでファインチューニングしたAIが、問い合わせに対して「この部品の耐熱温度は350℃です」と断言する。実際は280℃。でもAIの口調は自信たっぷりだから、現場の人間は疑わない。
専門データを入れたから信頼できる、という思い込みが一番危ない。
ファインチューニングにかかるコストは、外部ベンダーに依頼すれば数百万円。自社でやるにしてもGPUの計算コストやデータ整備に数十万円は飛ぶ。お金をかけて、わざわざ嘘つきマシンを作っている可能性がある。
—
なぜこうなるのか?——LLMの「記憶」は想像以上にいい加減
別の研究「Factual Retrieval in LLMs Is a Redundant, Distributed and Non-Contiguous Process」が、この問題の構造を明らかにしている。
LLMが事実を引き出すプロセスを調べたところ、こうなった。
- 事実の記憶はモデル内部のあちこちに分散している
- 同じ事実を引き出すための計算経路が複数存在し、冗長
- その経路は連続していない。飛び飛びに処理される
要するに、LLMの「知識」は人間が想像するような「データベースに整理されて格納されている」状態とはまったく違う。散らかった倉庫の中から、毎回違うルートで探し物をしているようなものだ。
ここにファインチューニングで新しいデータを突っ込むとどうなるか。散らかった倉庫にさらに荷物を投げ込むようなもので、既存の知識との整合性が崩れる。結果、もっともらしいが事実と異なる出力が増える。
「データを入れれば賢くなる」のではなく、「データを入れると既存の知識が壊れる」リスクがある。
この構造を理解せずにファインチューニングに突っ込むのは、地図なしで山に入るのと同じだ。
—
じゃあ知識グラフで補えばいいのか?——それも万能じゃない
「ファインチューニングがダメなら、外部の知識グラフを使えばいい」という発想もある。構造化されたデータベースをAIに参照させる方法だ。
しかし、研究「Knowledge-Graph Grounding Helps LLMs Only for Out-of-Training Knowledge」が示した結果は、これも期待通りにはいかないことを物語っている。
- 知識グラフが有効なのは、モデルが学習していない新しい情報に対してだけ
- モデルがすでに知っている事実に対しては、効果がないか、むしろノイズになる
- 医療分野では、汎用LLMが専門的なリトリーバルツールより高い精度を出したケースもある
つまり、知識グラフも「とりあえず入れておけば精度が上がる」ものではない。モデルが何を知っていて、何を知らないかを見極めたうえで、知らない部分だけを外部から補うのが正しい使い方だ。
ここに中小企業にとっての重要な示唆がある。
—
中小企業はファインチューニングをやめろ、とは言わない。「設計を変えろ」と言っている
ここまでの研究結果を整理する。
| やりがちなこと | 実際に起きること |
|---|---|
| 社内データでファインチューニング | 幻覚が増え、断定的に嘘をつくようになる |
| とりあえず知識グラフを接続 | 既知の情報にはノイズ、未知の情報にだけ有効 |
| 専門データを大量投入 | 既存知識との整合性が崩れる |
では、中小企業はどうすればいいのか。
答えは「ファインチューニングではなくRAG(検索拡張生成)を軸にした設計に切り替える」こと。
RAGなら、モデル本体はいじらない。質問が来たときに、社内のドキュメントやデータベースから関連情報を検索し、それを参考にして回答を生成する。モデルの「記憶」を書き換えないから、幻覚のリスクが構造的に低い。
コスト面でも圧倒的に有利だ。
- ファインチューニング:GPUコスト+データ整備+検証で100万〜500万円
- RAG構築:ベクトルDBの構築+検索パイプラインで10万〜50万円
10分の1以下のコストで、しかも幻覚リスクが低い。中小企業にとって、どちらが合理的かは明白だ。
さらに、RAGならデータの更新が即座に反映される。ファインチューニングは再学習が必要だが、RAGはドキュメントを差し替えるだけでいい。社内マニュアルが変わった、価格表が更新された、そういう日常的な変更にリアルタイムで対応できる。
—
「知っていること」と「知らないこと」を分けるのが、AI設計の本質
今回の研究群が示しているのは、結局ひとつのことだ。
AIに「何を覚えさせるか」ではなく、「何を外から渡すか」を設計せよ。
汎用LLMがすでに知っている一般知識は、そのまま使えばいい。自社固有の情報——製品仕様、顧客対応履歴、社内ルール——はRAGで外から渡す。知識グラフは、モデルが明らかに知らない領域にだけ使う。
この「仕分け」ができるかどうかで、AI導入の成果はまったく変わる。
中小企業にとって朗報なのは、この設計判断にはGPUも大量データも要らないということだ。必要なのは、自社の業務を理解し、「AIが知っていること」と「自社だけが持っている情報」を切り分ける目利き力。これは大企業より現場に近い中小企業のほうが、むしろ得意なはずだ。
—
まず明日やること
- ファインチューニングの見積もりを取っているなら、一度止める。RAGで同じことができないか検討する
- 社内データの棚卸しをする。「AIが知らない、うちだけの情報」を洗い出す
- 小さく試す。ChatGPTやClaudeに社内ドキュメントを添付して質問してみる。それだけで「RAG的な使い方」の感覚はつかめる
数百万円かけてファインチューニングする前に、まず5万円でRAGを試す。それで十分な成果が出るなら、残りの数百万円は別の投資に回せる。
「データを食わせれば賢くなる」時代は終わった。「データの渡し方を設計する」時代が来ている。
—
JA
EN