「社内データを食わせれば賢くなる」は嘘だった——ファインチューニングで幻覚が増える研究結果が、中小企業のAI投資の常識を壊す

結論から言う。「AIに専門データを学習させるほど、嘘が増える」「社内データを食わせれば、AIは賢くなる」。この常識、もう捨てたほうがいい。最新の研究が示したのは、科学データでファインチューニングしたLLMは、むしろ幻覚（ハルシネ

By Kai

June 24, 2026 | Last updated June 24, 2026

May 28, 2026

The ‘Memoryless’ Problem of AI Agents: The Irony of AI, Meant to Eliminate Personalization, Creating a New Form of Personalization

April 12, 2026

AI Enters the Season of ‘Fatigue’—Three Structural Reasons Why Small and Medium Enterprises Would Lose if They Stop Now

結論から言う。「AIに専門データを学習させるほど、嘘が増える」

「社内データを食わせれば、AIは賢くなる」。

この常識、もう捨てたほうがいい。

最新の研究が示したのは、科学データでファインチューニングしたLLMは、むしろ幻覚（ハルシネーション）が増えるという事実だ。専門知識を教えれば教えるほど、AIは自信満々に嘘をつくようになる。

これは学術の話だけじゃない。中小企業が「うちのデータで学習させよう」と数百万円かけてファインチューニングしようとしているなら、一度立ち止まって読んでほしい。

—

ファインチューニングしたら、全指標で「信頼性が下がった」

論文「Finetuning with Scientific Data Increases Hallucinations」の結果はシンプルかつ衝撃的だ。

研究チームは、科学データでファインチューニングされた18のLLMに対し、2,500件のプロンプトで事実性を評価した。結果はこうだ。

すべての幻覚タイプで、事実の信頼性が低下した
モデル内部の確信度は下がっているのに、出力される文章はより断定的になった
つまり「自分でも分かっていないのに、堂々と嘘をつく」状態が生まれた

これがどういうことか、現場で考えてみてほしい。

例えば、製造業の品質管理データでファインチューニングしたAIが、問い合わせに対して「この部品の耐熱温度は350℃です」と断言する。実際は280℃。でもAIの口調は自信たっぷりだから、現場の人間は疑わない。

専門データを入れたから信頼できる、という思い込みが一番危ない。

ファインチューニングにかかるコストは、外部ベンダーに依頼すれば数百万円。自社でやるにしてもGPUの計算コストやデータ整備に数十万円は飛ぶ。お金をかけて、わざわざ嘘つきマシンを作っている可能性がある。

—

なぜこうなるのか？——LLMの「記憶」は想像以上にいい加減

別の研究「Factual Retrieval in LLMs Is a Redundant, Distributed and Non-Contiguous Process」が、この問題の構造を明らかにしている。

LLMが事実を引き出すプロセスを調べたところ、こうなった。

事実の記憶はモデル内部のあちこちに分散している
同じ事実を引き出すための計算経路が複数存在し、冗長
その経路は連続していない。飛び飛びに処理される

要するに、LLMの「知識」は人間が想像するような「データベースに整理されて格納されている」状態とはまったく違う。散らかった倉庫の中から、毎回違うルートで探し物をしているようなものだ。

ここにファインチューニングで新しいデータを突っ込むとどうなるか。散らかった倉庫にさらに荷物を投げ込むようなもので、既存の知識との整合性が崩れる。結果、もっともらしいが事実と異なる出力が増える。

「データを入れれば賢くなる」のではなく、「データを入れると既存の知識が壊れる」リスクがある。

この構造を理解せずにファインチューニングに突っ込むのは、地図なしで山に入るのと同じだ。

—

じゃあ知識グラフで補えばいいのか？——それも万能じゃない

「ファインチューニングがダメなら、外部の知識グラフを使えばいい」という発想もある。構造化されたデータベースをAIに参照させる方法だ。

しかし、研究「Knowledge-Graph Grounding Helps LLMs Only for Out-of-Training Knowledge」が示した結果は、これも期待通りにはいかないことを物語っている。

知識グラフが有効なのは、モデルが学習していない新しい情報に対してだけ
モデルがすでに知っている事実に対しては、効果がないか、むしろノイズになる
医療分野では、汎用LLMが専門的なリトリーバルツールより高い精度を出したケースもある

つまり、知識グラフも「とりあえず入れておけば精度が上がる」ものではない。モデルが何を知っていて、何を知らないかを見極めたうえで、知らない部分だけを外部から補うのが正しい使い方だ。

ここに中小企業にとっての重要な示唆がある。

—

中小企業はファインチューニングをやめろ、とは言わない。「設計を変えろ」と言っている

ここまでの研究結果を整理する。

やりがちなこと	実際に起きること
社内データでファインチューニング	幻覚が増え、断定的に嘘をつくようになる
とりあえず知識グラフを接続	既知の情報にはノイズ、未知の情報にだけ有効
専門データを大量投入	既存知識との整合性が崩れる

では、中小企業はどうすればいいのか。

答えは「ファインチューニングではなくRAG（検索拡張生成）を軸にした設計に切り替える」こと。

RAGなら、モデル本体はいじらない。質問が来たときに、社内のドキュメントやデータベースから関連情報を検索し、それを参考にして回答を生成する。モデルの「記憶」を書き換えないから、幻覚のリスクが構造的に低い。

コスト面でも圧倒的に有利だ。

ファインチューニング：GPUコスト＋データ整備＋検証で100万〜500万円
RAG構築：ベクトルDBの構築＋検索パイプラインで10万〜50万円

10分の1以下のコストで、しかも幻覚リスクが低い。中小企業にとって、どちらが合理的かは明白だ。

さらに、RAGならデータの更新が即座に反映される。ファインチューニングは再学習が必要だが、RAGはドキュメントを差し替えるだけでいい。社内マニュアルが変わった、価格表が更新された、そういう日常的な変更にリアルタイムで対応できる。

—

「知っていること」と「知らないこと」を分けるのが、AI設計の本質

今回の研究群が示しているのは、結局ひとつのことだ。

AIに「何を覚えさせるか」ではなく、「何を外から渡すか」を設計せよ。

汎用LLMがすでに知っている一般知識は、そのまま使えばいい。自社固有の情報——製品仕様、顧客対応履歴、社内ルール——はRAGで外から渡す。知識グラフは、モデルが明らかに知らない領域にだけ使う。

この「仕分け」ができるかどうかで、AI導入の成果はまったく変わる。

中小企業にとって朗報なのは、この設計判断にはGPUも大量データも要らないということだ。必要なのは、自社の業務を理解し、「AIが知っていること」と「自社だけが持っている情報」を切り分ける目利き力。これは大企業より現場に近い中小企業のほうが、むしろ得意なはずだ。

—

まず明日やること

ファインチューニングの見積もりを取っているなら、一度止める。RAGで同じことができないか検討する
社内データの棚卸しをする。「AIが知らない、うちだけの情報」を洗い出す
小さく試す。ChatGPTやClaudeに社内ドキュメントを添付して質問してみる。それだけで「RAG的な使い方」の感覚はつかめる

数百万円かけてファインチューニングする前に、まず5万円でRAGを試す。それで十分な成果が出るなら、残りの数百万円は別の投資に回せる。

「データを食わせれば賢くなる」時代は終わった。「データの渡し方を設計する」時代が来ている。

—

TOPICS

WORLD INSIGHT

「社内データを食わせれば賢くなる」は嘘だった——ファインチューニングで幻覚が増える研究結果が、中小企業のAI投資の常識を壊す

結論から言う。「AIに専門データを学習させるほど、嘘が増える」

ファインチューニングしたら、全指標で「信頼性が下がった」

なぜこうなるのか？——LLMの「記憶」は想像以上にいい加減

じゃあ知識グラフで補えばいいのか？——それも万能じゃない

中小企業はファインチューニングをやめろ、とは言わない。「設計を変えろ」と言っている

「知っていること」と「知らないこと」を分けるのが、AI設計の本質

まず明日やること

POPULAR ARTICLES

Silver in Women’s Basketball: “Golden Rules for Shooting” Saves Saki Hayashi from Slump

World Insight Interview by Shunsuke Ochiai Vol.7 Catherine, the master of finding affordable kimonos in Japan.

Notion Exits Email, Oracle Cuts 21,000 Jobs—Three Actions Companies of Ten Should Take Now in the Era Where AI Chooses People

Some Telling Quotes on Shohei Otani’s 2021 Batting Performance

Related Articles

Google x Blackstone 700 Billion Yen, NVIDIA 4-Bit Learning — When Will ‘API Prices Halve’ Come Amidst the Giants’ Clash? Small and Medium Enterprises Shouldn’t Wait; Start with Profitable Operations at Current Rates

AI Audit Agents Fabricate Verification Three Times — What is the Monthly Cost of ‘Doubting AI Outputs’? Designing Verification Systems for SMEs by Price

AI Agents Have No ‘Safety Mechanisms’—Three Things Small Businesses Should Do Today Before Losing Millions Through API Integration

The Day Toshiba’s EV Bus Battery Shatters Chinese and Korean Dominance (with video)

POPULAR ARTICLES

Silver in Women’s Basketball: “Golden Rules for Shooting” Saves Saki Hayashi from Slump

World Insight Interview by Shunsuke Ochiai Vol.7 Catherine, the master of finding affordable kimonos in Japan.

Notion Exits Email, Oracle Cuts 21,000 Jobs—Three Actions Companies of Ten Should Take Now in the Era Where AI Chooses People

Some Telling Quotes on Shohei Otani’s 2021 Batting Performance

TOPICS

WORLD INSIGHT