月1.8万円で「他人のGPUに依存しないAI」は本当に組めるか——Llama.cpp×Engram×CipherNodeの総コストを試算した
Related Articles
OpenAIが止まったら、あなたの業務は何分で止まるか
先日、Anthropicが一部モデルの提供方針を変更したニュースが流れた。詳細はさておき、本質的な問いはひとつだ。
「今使っているAI、明日止まったらどうする?」
ChatGPT、Claude、Gemini——便利だ。だが全部、他人のサーバーで動いている。料金が上がるのも、モデルが廃止されるのも、APIの仕様が変わるのも、こちらには決定権がない。月額数万円を払い続けて、ある日突然「このモデルは終了します」と言われるリスクを、地方の中小企業が背負い続けていいのか。
そこで今回、自社サーバーだけで完結するAI環境を3つのオープンソースツールで組んだ場合の総コストを試算した。結論から言う。月額約1.8万円。年間でも約22万円だ。
—
3つのツールで何ができるのか、30秒で説明する
| ツール | 役割 | 一言で言うと |
|---|---|---|
| Llama.cpp | CPU推論エンジン | GPUなしでLLMを動かす |
| Engram | オフラインメモリサーバー | AIに「記憶」を持たせる。外部通信なし |
| CipherNode | 自己修正AIスワーム | 複数エージェントが互いのエラーを検知・修正 |
この3つを組み合わせると、「自分で考え、覚え、間違いを自分で直すAI」がオフラインで動く。クラウドAPI不要。月額従量課金なし。データは一切外に出ない。
—
Llama.cpp:GPU不要のCPU推論、実際どこまで使えるのか
Llama.cppは、Meta社のLLaMAモデルをC/C++で再実装し、GPUなしのCPU環境でもLLMを動かせるようにしたオープンソースプロジェクトだ。
普通、LLMを動かすにはNVIDIAのGPU(A100やH100)が必要で、クラウドで借りれば月数十万円が飛ぶ。Llama.cppはそのコスト構造をひっくり返した。
実際のスペックとコスト
4bit量子化したLlama 3 8Bモデルの場合:
- 必要スペック: CPU 4コア以上、RAM 16GB以上、ストレージ10GB
- 推論速度: 約5〜15トークン/秒(CPU依存)
- 対応サーバー例: 中古のDell PowerEdge T340クラスで十分
- ハードウェア初期費用: 中古サーバーなら3〜8万円程度
- 月額電気代+回線: 約5,000円
- ソフトウェア費用: 0円(MITライセンス)
GPT-4クラスの性能は出ない。だが、社内FAQ応答、議事録要約、メール下書き、定型文書生成——中小企業の実務の8割はこのレベルで回る。「GPT-4じゃないと無理」な業務がどれだけあるか、一度棚卸ししてみてほしい。意外と少ないはずだ。
—
Engram:「AIが昨日の会話を覚えている」をオフラインで実現する
LLMの弱点は「忘れる」ことだ。毎回ゼロから会話が始まる。ChatGPTのメモリ機能はOpenAIのサーバー側で実装されているから、自社運用では使えない。
Engramは、MCP(Model Context Protocol)準拠のオフラインメモリサーバーだ。AIコーディングツールやLLMに「長期記憶」を与える。
具体的には:
- 過去の会話履歴、ユーザーの好み、プロジェクト情報をローカルに保存
- 次回の推論時に関連する記憶を自動で呼び出し、コンテキストに注入
- 一切の外部通信なし。データはサーバーの中から出ない
コストとスペック
- 必要スペック: CPU 4コア以上、RAM 32GB以上(記憶データのインデックスにメモリを食う)、ストレージ20GB
- 月額コスト: 約6,000円(Llama.cppと同一サーバーで兼用する場合は追加コストほぼゼロ。メモリ増設が必要な場合のみ数千円の初期投資)
- ソフトウェア費用: 0円
これが何を意味するか。「うちの会社のことを分かっているAI」がオフラインで動くということだ。新人が入社して業務を覚えるのに3ヶ月かかるとする。Engramで記憶を蓄積したAIは、その3ヶ月分のコンテキストを最初から持っている。属人化していたノウハウが、サーバーの中に再現可能な形で残る。
—
CipherNode:AIが自分のミスを自分で直す
LLMは嘘をつく。ハルシネーション(幻覚)と呼ばれるこの問題は、自社運用では特に深刻だ。クラウドAPIなら「モデルが改善されるのを待つ」という選択肢があるが、ローカルモデルは自分でなんとかするしかない。
CipherNodeは、複数のAIエージェントをスワーム(群)として構成し、互いの出力をクロスチェック・修正させるフレームワークだ。
仕組みはシンプルだ:
- エージェントAがタスクを実行し、出力を生成
- エージェントBがその出力を検証し、矛盾や誤りを検出
- 検出されたエラーは自動で修正され、再実行
- このループがオフラインで完結する
人間で言えば「ダブルチェック体制」だが、これを24時間自動で回せる。
コストとスペック
- 必要スペック: CPU 8コア以上(複数エージェント並列実行のため)、RAM 16GB以上、ストレージ15GB
- 月額コスト: 約7,000円(CPU負荷が高いため、電気代がやや増加)
- ソフトウェア費用: 0円
正直に言えば、導入難易度は3つの中で最も高い。エージェント間の通信設定、修正ルールの定義にはエンジニアの手が要る。だが、一度組んでしまえば「勝手に品質が担保される」仕組みになる。属人的なレビュー工程が自動化される意味は大きい。
—
総コスト試算:結局いくらかかるのか
3つを1台のサーバーに統合する場合と、分散構成にする場合で試算した。
パターンA:1台統合構成(最小コスト)
| 項目 | コスト |
|---|---|
| サーバー(中古、CPU 8コア/RAM 64GB) | 初期費用 8〜15万円 |
| 月額電気代 | 約5,000〜7,000円 |
| 回線費用 | 社内LAN利用なら0円 |
| ソフトウェア | 0円 |
| 月額ランニングコスト | 約5,000〜7,000円 |
| 年間ランニングコスト | 約6〜8.4万円 |
パターンB:役割分散構成(推奨)
Llama.cpp用・Engram用・CipherNode用に分けて安定性を確保する場合。
| 項目 | コスト |
|---|---|
| サーバー3台(中古) | 初期費用 15〜30万円 |
| 月額電気代 | 約15,000〜18,000円 |
| 回線費用 | 社内LAN利用なら0円 |
| ソフトウェア | 0円 |
| 月額ランニングコスト | 約15,000〜18,000円 |
| 年間ランニングコスト | 約18〜22万円 |
比較対象を置こう。ChatGPT Teamプランは1人月額3,750円。10人で使えば月37,500円、年間45万円。しかもデータはOpenAIのサーバーに送られ、モデル変更の決定権はゼロだ。
月1.8万円の自社AI vs 月3.75万円の他人のAI。 コストで勝ち、データ主権でも勝つ。性能だけがトレードオフだが、前述の通り実務の大半はローカルモデルで足りる。
—
導入難易度の現実——誰が構築するのか
正直に書く。この構成を「ITに詳しくない中小企業の社長」がひとりで組むのは無理だ。
| ツール | 導入難易度 | 必要なスキル |
|---|---|---|
| Llama.cpp | ★★☆☆☆ | Linuxの基本操作、コマンドライン |
| Engram | ★★★☆☆ | 上記+MCP設定の理解 |
| CipherNode | ★★★★☆ | 上記+エージェント設計の知識 |
だが、ここで考えてほしい。この構築作業は一度やれば終わる。外注しても10〜30万円程度の話だ。一方、クラウドAPIの月額課金は永遠に続く。「構築の手間」と「毎月の支払い」、どちらが重いかは明白だろう。
地方にもLinuxを触れるエンジニアはいる。地元の高専出身者、副業エンジニア、あるいは自治体のIT支援制度。探せば手は見つかる。
—
で、結局どうすればいいのか
3ステップで提案する。
1. まずLlama.cppだけ試す(今週できる)
手持ちのPCでいい。WSL2でもMacでも動く。Llama 3 8Bの4bit量子化モデルを落として、llama-serverを起動する。30分で「自社PCで動くAI」が体験できる。
2. 業務で使えるか1週間検証する
FAQ応答、議事録要約、メール下書き。実務に投げてみて「これで十分」と思えるタスクを洗い出す。
3. 十分なタスクが3つ以上あれば、Engram+CipherNodeの構築に進む
記憶と自己修正を加えて、本格的な自社AI基盤にする。ここで初めてサーバー投資の判断をすればいい。
最初の一歩にかかるコストは0円。必要なのは30分の時間だけだ。
—
「依存先」を選ぶ時代は終わりつつある
OpenAI、Google、Anthropic——どこに依存するかを選ぶ時代から、どこにも依存しない選択肢が現実的になってきた。
月1.8万円。中古サーバー数台。オープンソースのツール3つ。これで「止まらないAI」「データが外に出ないAI」「自分で賢くなるAI」が手に入る。完璧ではない。GPT-4には勝てない。だが、止まらないことの価値は、性能の差より大きい場合がある。
地方の中小企業にとって、AIは「使わせてもらうもの」から「自分で持つもの」に変わりつつある。その転換点が、今だ。
—
JA
EN