「社内データを食わせれば賢くなる」は嘘だった——ファインチューニングで幻覚が増える研究結果が、中小企業のAI投資の常識を壊す

結論から言う。「AIに専門データを学習させるほど、嘘が増える」 「社内データを食わせれば、AIは賢くなる」。 この常識、もう捨てたほうがいい。 最新の研究が示したのは、科学データでファインチューニングしたLLMは、むしろ幻覚(ハルシネ

By Kai

|

Related Articles

結論から言う。「AIに専門データを学習させるほど、嘘が増える」

「社内データを食わせれば、AIは賢くなる」。

この常識、もう捨てたほうがいい。

最新の研究が示したのは、科学データでファインチューニングしたLLMは、むしろ幻覚(ハルシネーション)が増えるという事実だ。専門知識を教えれば教えるほど、AIは自信満々に嘘をつくようになる。

これは学術の話だけじゃない。中小企業が「うちのデータで学習させよう」と数百万円かけてファインチューニングしようとしているなら、一度立ち止まって読んでほしい。

ファインチューニングしたら、全指標で「信頼性が下がった」

論文「Finetuning with Scientific Data Increases Hallucinations」の結果はシンプルかつ衝撃的だ。

研究チームは、科学データでファインチューニングされた18のLLMに対し、2,500件のプロンプトで事実性を評価した。結果はこうだ。

  • すべての幻覚タイプで、事実の信頼性が低下した
  • モデル内部の確信度は下がっているのに、出力される文章はより断定的になった
  • つまり「自分でも分かっていないのに、堂々と嘘をつく」状態が生まれた

これがどういうことか、現場で考えてみてほしい。

例えば、製造業の品質管理データでファインチューニングしたAIが、問い合わせに対して「この部品の耐熱温度は350℃です」と断言する。実際は280℃。でもAIの口調は自信たっぷりだから、現場の人間は疑わない。

専門データを入れたから信頼できる、という思い込みが一番危ない。

ファインチューニングにかかるコストは、外部ベンダーに依頼すれば数百万円。自社でやるにしてもGPUの計算コストやデータ整備に数十万円は飛ぶ。お金をかけて、わざわざ嘘つきマシンを作っている可能性がある。

なぜこうなるのか?——LLMの「記憶」は想像以上にいい加減

別の研究「Factual Retrieval in LLMs Is a Redundant, Distributed and Non-Contiguous Process」が、この問題の構造を明らかにしている。

LLMが事実を引き出すプロセスを調べたところ、こうなった。

  • 事実の記憶はモデル内部のあちこちに分散している
  • 同じ事実を引き出すための計算経路が複数存在し、冗長
  • その経路は連続していない。飛び飛びに処理される

要するに、LLMの「知識」は人間が想像するような「データベースに整理されて格納されている」状態とはまったく違う。散らかった倉庫の中から、毎回違うルートで探し物をしているようなものだ。

ここにファインチューニングで新しいデータを突っ込むとどうなるか。散らかった倉庫にさらに荷物を投げ込むようなもので、既存の知識との整合性が崩れる。結果、もっともらしいが事実と異なる出力が増える。

「データを入れれば賢くなる」のではなく、「データを入れると既存の知識が壊れる」リスクがある。

この構造を理解せずにファインチューニングに突っ込むのは、地図なしで山に入るのと同じだ。

じゃあ知識グラフで補えばいいのか?——それも万能じゃない

「ファインチューニングがダメなら、外部の知識グラフを使えばいい」という発想もある。構造化されたデータベースをAIに参照させる方法だ。

しかし、研究「Knowledge-Graph Grounding Helps LLMs Only for Out-of-Training Knowledge」が示した結果は、これも期待通りにはいかないことを物語っている。

  • 知識グラフが有効なのは、モデルが学習していない新しい情報に対してだけ
  • モデルがすでに知っている事実に対しては、効果がないか、むしろノイズになる
  • 医療分野では、汎用LLMが専門的なリトリーバルツールより高い精度を出したケースもある

つまり、知識グラフも「とりあえず入れておけば精度が上がる」ものではない。モデルが何を知っていて、何を知らないかを見極めたうえで、知らない部分だけを外部から補うのが正しい使い方だ。

ここに中小企業にとっての重要な示唆がある。

中小企業はファインチューニングをやめろ、とは言わない。「設計を変えろ」と言っている

ここまでの研究結果を整理する。

やりがちなこと 実際に起きること
社内データでファインチューニング 幻覚が増え、断定的に嘘をつくようになる
とりあえず知識グラフを接続 既知の情報にはノイズ、未知の情報にだけ有効
専門データを大量投入 既存知識との整合性が崩れる

では、中小企業はどうすればいいのか。

答えは「ファインチューニングではなくRAG(検索拡張生成)を軸にした設計に切り替える」こと。

RAGなら、モデル本体はいじらない。質問が来たときに、社内のドキュメントやデータベースから関連情報を検索し、それを参考にして回答を生成する。モデルの「記憶」を書き換えないから、幻覚のリスクが構造的に低い。

コスト面でも圧倒的に有利だ。

  • ファインチューニング:GPUコスト+データ整備+検証で100万〜500万円
  • RAG構築:ベクトルDBの構築+検索パイプラインで10万〜50万円

10分の1以下のコストで、しかも幻覚リスクが低い。中小企業にとって、どちらが合理的かは明白だ。

さらに、RAGならデータの更新が即座に反映される。ファインチューニングは再学習が必要だが、RAGはドキュメントを差し替えるだけでいい。社内マニュアルが変わった、価格表が更新された、そういう日常的な変更にリアルタイムで対応できる。

「知っていること」と「知らないこと」を分けるのが、AI設計の本質

今回の研究群が示しているのは、結局ひとつのことだ。

AIに「何を覚えさせるか」ではなく、「何を外から渡すか」を設計せよ。

汎用LLMがすでに知っている一般知識は、そのまま使えばいい。自社固有の情報——製品仕様、顧客対応履歴、社内ルール——はRAGで外から渡す。知識グラフは、モデルが明らかに知らない領域にだけ使う。

この「仕分け」ができるかどうかで、AI導入の成果はまったく変わる。

中小企業にとって朗報なのは、この設計判断にはGPUも大量データも要らないということだ。必要なのは、自社の業務を理解し、「AIが知っていること」と「自社だけが持っている情報」を切り分ける目利き力。これは大企業より現場に近い中小企業のほうが、むしろ得意なはずだ。

まず明日やること

  1. ファインチューニングの見積もりを取っているなら、一度止める。RAGで同じことができないか検討する
  2. 社内データの棚卸しをする。「AIが知らない、うちだけの情報」を洗い出す
  3. 小さく試す。ChatGPTやClaudeに社内ドキュメントを添付して質問してみる。それだけで「RAG的な使い方」の感覚はつかめる

数百万円かけてファインチューニングする前に、まず5万円でRAGを試す。それで十分な成果が出るなら、残りの数百万円は別の投資に回せる。

「データを食わせれば賢くなる」時代は終わった。「データの渡し方を設計する」時代が来ている。

POPULAR ARTICLES

Related Articles

POPULAR ARTICLES

JP JA US EN