月1.8万円で「他人のGPUに依存しないAI」は本当に組めるか——Llama.cpp×Engram×CipherNodeの総コストを試算した

OpenAIが止まったら、あなたの業務は何分で止まるか 先日、Anthropicが一部モデルの提供方針を変更したニュースが流れた。詳細はさておき、本質的な問いはひとつだ。 「今使っているAI、明日止まったらどうする?」 ChatGPT

By Kai

|

Related Articles

OpenAIが止まったら、あなたの業務は何分で止まるか

先日、Anthropicが一部モデルの提供方針を変更したニュースが流れた。詳細はさておき、本質的な問いはひとつだ。

「今使っているAI、明日止まったらどうする?」

ChatGPT、Claude、Gemini——便利だ。だが全部、他人のサーバーで動いている。料金が上がるのも、モデルが廃止されるのも、APIの仕様が変わるのも、こちらには決定権がない。月額数万円を払い続けて、ある日突然「このモデルは終了します」と言われるリスクを、地方の中小企業が背負い続けていいのか。

そこで今回、自社サーバーだけで完結するAI環境を3つのオープンソースツールで組んだ場合の総コストを試算した。結論から言う。月額約1.8万円。年間でも約22万円だ。

3つのツールで何ができるのか、30秒で説明する

ツール 役割 一言で言うと
Llama.cpp CPU推論エンジン GPUなしでLLMを動かす
Engram オフラインメモリサーバー AIに「記憶」を持たせる。外部通信なし
CipherNode 自己修正AIスワーム 複数エージェントが互いのエラーを検知・修正

この3つを組み合わせると、「自分で考え、覚え、間違いを自分で直すAI」がオフラインで動く。クラウドAPI不要。月額従量課金なし。データは一切外に出ない。

Llama.cpp:GPU不要のCPU推論、実際どこまで使えるのか

Llama.cppは、Meta社のLLaMAモデルをC/C++で再実装し、GPUなしのCPU環境でもLLMを動かせるようにしたオープンソースプロジェクトだ。

普通、LLMを動かすにはNVIDIAのGPU(A100やH100)が必要で、クラウドで借りれば月数十万円が飛ぶ。Llama.cppはそのコスト構造をひっくり返した。

実際のスペックとコスト

4bit量子化したLlama 3 8Bモデルの場合:

  • 必要スペック: CPU 4コア以上、RAM 16GB以上、ストレージ10GB
  • 推論速度: 約5〜15トークン/秒(CPU依存)
  • 対応サーバー例: 中古のDell PowerEdge T340クラスで十分
  • ハードウェア初期費用: 中古サーバーなら3〜8万円程度
  • 月額電気代+回線: 約5,000円
  • ソフトウェア費用: 0円(MITライセンス)

GPT-4クラスの性能は出ない。だが、社内FAQ応答、議事録要約、メール下書き、定型文書生成——中小企業の実務の8割はこのレベルで回る。「GPT-4じゃないと無理」な業務がどれだけあるか、一度棚卸ししてみてほしい。意外と少ないはずだ。

Engram:「AIが昨日の会話を覚えている」をオフラインで実現する

LLMの弱点は「忘れる」ことだ。毎回ゼロから会話が始まる。ChatGPTのメモリ機能はOpenAIのサーバー側で実装されているから、自社運用では使えない。

Engramは、MCP(Model Context Protocol)準拠のオフラインメモリサーバーだ。AIコーディングツールやLLMに「長期記憶」を与える。

具体的には:

  • 過去の会話履歴、ユーザーの好み、プロジェクト情報をローカルに保存
  • 次回の推論時に関連する記憶を自動で呼び出し、コンテキストに注入
  • 一切の外部通信なし。データはサーバーの中から出ない

コストとスペック

  • 必要スペック: CPU 4コア以上、RAM 32GB以上(記憶データのインデックスにメモリを食う)、ストレージ20GB
  • 月額コスト: 約6,000円(Llama.cppと同一サーバーで兼用する場合は追加コストほぼゼロ。メモリ増設が必要な場合のみ数千円の初期投資)
  • ソフトウェア費用: 0円

これが何を意味するか。「うちの会社のことを分かっているAI」がオフラインで動くということだ。新人が入社して業務を覚えるのに3ヶ月かかるとする。Engramで記憶を蓄積したAIは、その3ヶ月分のコンテキストを最初から持っている。属人化していたノウハウが、サーバーの中に再現可能な形で残る。

CipherNode:AIが自分のミスを自分で直す

LLMは嘘をつく。ハルシネーション(幻覚)と呼ばれるこの問題は、自社運用では特に深刻だ。クラウドAPIなら「モデルが改善されるのを待つ」という選択肢があるが、ローカルモデルは自分でなんとかするしかない。

CipherNodeは、複数のAIエージェントをスワーム(群)として構成し、互いの出力をクロスチェック・修正させるフレームワークだ。

仕組みはシンプルだ:

  1. エージェントAがタスクを実行し、出力を生成
  2. エージェントBがその出力を検証し、矛盾や誤りを検出
  3. 検出されたエラーは自動で修正され、再実行
  4. このループがオフラインで完結する

人間で言えば「ダブルチェック体制」だが、これを24時間自動で回せる。

コストとスペック

  • 必要スペック: CPU 8コア以上(複数エージェント並列実行のため)、RAM 16GB以上、ストレージ15GB
  • 月額コスト: 約7,000円(CPU負荷が高いため、電気代がやや増加)
  • ソフトウェア費用: 0円

正直に言えば、導入難易度は3つの中で最も高い。エージェント間の通信設定、修正ルールの定義にはエンジニアの手が要る。だが、一度組んでしまえば「勝手に品質が担保される」仕組みになる。属人的なレビュー工程が自動化される意味は大きい。

総コスト試算:結局いくらかかるのか

3つを1台のサーバーに統合する場合と、分散構成にする場合で試算した。

パターンA:1台統合構成(最小コスト)

項目 コスト
サーバー(中古、CPU 8コア/RAM 64GB) 初期費用 8〜15万円
月額電気代 約5,000〜7,000円
回線費用 社内LAN利用なら0円
ソフトウェア 0円
月額ランニングコスト 約5,000〜7,000円
年間ランニングコスト 約6〜8.4万円

パターンB:役割分散構成(推奨)

Llama.cpp用・Engram用・CipherNode用に分けて安定性を確保する場合。

項目 コスト
サーバー3台(中古) 初期費用 15〜30万円
月額電気代 約15,000〜18,000円
回線費用 社内LAN利用なら0円
ソフトウェア 0円
月額ランニングコスト 約15,000〜18,000円
年間ランニングコスト 約18〜22万円

比較対象を置こう。ChatGPT Teamプランは1人月額3,750円。10人で使えば月37,500円、年間45万円。しかもデータはOpenAIのサーバーに送られ、モデル変更の決定権はゼロだ。

月1.8万円の自社AI vs 月3.75万円の他人のAI。 コストで勝ち、データ主権でも勝つ。性能だけがトレードオフだが、前述の通り実務の大半はローカルモデルで足りる。

導入難易度の現実——誰が構築するのか

正直に書く。この構成を「ITに詳しくない中小企業の社長」がひとりで組むのは無理だ。

ツール 導入難易度 必要なスキル
Llama.cpp ★★☆☆☆ Linuxの基本操作、コマンドライン
Engram ★★★☆☆ 上記+MCP設定の理解
CipherNode ★★★★☆ 上記+エージェント設計の知識

だが、ここで考えてほしい。この構築作業は一度やれば終わる。外注しても10〜30万円程度の話だ。一方、クラウドAPIの月額課金は永遠に続く。「構築の手間」と「毎月の支払い」、どちらが重いかは明白だろう。

地方にもLinuxを触れるエンジニアはいる。地元の高専出身者、副業エンジニア、あるいは自治体のIT支援制度。探せば手は見つかる。

で、結局どうすればいいのか

3ステップで提案する。

1. まずLlama.cppだけ試す(今週できる)
手持ちのPCでいい。WSL2でもMacでも動く。Llama 3 8Bの4bit量子化モデルを落として、llama-serverを起動する。30分で「自社PCで動くAI」が体験できる。

2. 業務で使えるか1週間検証する
FAQ応答、議事録要約、メール下書き。実務に投げてみて「これで十分」と思えるタスクを洗い出す。

3. 十分なタスクが3つ以上あれば、Engram+CipherNodeの構築に進む
記憶と自己修正を加えて、本格的な自社AI基盤にする。ここで初めてサーバー投資の判断をすればいい。

最初の一歩にかかるコストは0円。必要なのは30分の時間だけだ。

「依存先」を選ぶ時代は終わりつつある

OpenAI、Google、Anthropic——どこに依存するかを選ぶ時代から、どこにも依存しない選択肢が現実的になってきた。

月1.8万円。中古サーバー数台。オープンソースのツール3つ。これで「止まらないAI」「データが外に出ないAI」「自分で賢くなるAI」が手に入る。完璧ではない。GPT-4には勝てない。だが、止まらないことの価値は、性能の差より大きい場合がある。

地方の中小企業にとって、AIは「使わせてもらうもの」から「自分で持つもの」に変わりつつある。その転換点が、今だ。

POPULAR ARTICLES

Related Articles

POPULAR ARTICLES

JP JA US EN