古いスマホを束ねてAIが動く時代——「月1万円以下」でLLMを回す3つの現実解
Related Articles

結論から言う。AIの運用コストは、もう「月1万円以下」の世界に入った
ChatGPTのAPI代、月にいくら払っている? 中小企業でも月5万〜10万円は珍しくない。大企業なら数百万円。そしてその裏側では、データセンターが年間2900万ガロン(約1.1億リットル)の水を冷却に使っている。
この構造、おかしくないか?
「AIを使うには、巨大なインフラが要る」——この前提が、いま静かに崩れ始めている。古いスマホを束ねてLLMクラスターを組む。ローカルのMacでLLMサーバーを立てる。複数エージェントのCLI制御でAPI代を最小化する。どれも個人や中小企業が「手元にあるもの」で始められる手法だ。
しかも月額コストは、いずれも1万円以下。
3つの手法を、コスト・難易度・実用性で比較する。
—
手法①:古いスマホを束ねてLLMクラスターを構築する
何がすごいのか
引き出しに眠っている古いスマホ。あれが「AIの計算資源」になる。
具体的には、古いiPhoneやAndroid端末をWi-Fiでネットワーク接続し、llama.cppなどのオープンソース推論エンジンを載せて、分散クラスターとして動かす。1台では非力でも、5〜10台束ねれば、7Bパラメータ(70億パラメータ)クラスのモデルを実用的な速度で動かせるという報告が出ている。
コスト感
- 初期投資:0円〜数千円(中古スマホを追加購入する場合でも1台2,000〜5,000円)
- 月額電気代:約500〜1,500円(スマホ10台をフル稼働させても消費電力は合計30〜50W程度)
- API代:0円(完全ローカル)
つまり、月額1,500円以下でLLMが動く環境が作れる。
注意点
ただし、現時点では「実験的」の域を出ていない。スマホ間の通信遅延、メモリの制約(1台あたり3〜6GB)、発熱管理など課題は多い。大量のリクエストを安定的にさばく用途には向かない。
とはいえ、社内のFAQボットや、日報の要約、簡易な文章校正といった「軽いタスクを社内で完結させる」用途なら十分に実用圏内だ。300万円のサーバーを買う前に、まず引き出しのスマホで試す。この発想自体が中小企業の武器になる。
—
手法②:複数エージェントCLIの調整でAPI代を最小化する
何がすごいのか
クラウドのLLM APIを使い続けるなら、「いかに無駄な呼び出しを減らすか」が勝負になる。ここで注目されているのが、Endyのような複数エージェントオーケストレーションツールだ。
EndyはGitHubで公開されているオープンソースプロジェクトで、複数のコーディングエージェントをCLIから一括制御できる。ポイントは「タスクの振り分け」と「モデルの使い分け」だ。
例えば、こういう運用ができる:
- 簡単なタスク(コードの整形、定型文生成)→ 安価な小型モデル(GPT-4o-miniやClaude 3 Haiku)に振る
- 複雑なタスク(設計判断、長文の分析)→ 高性能モデル(GPT-4oやClaude Sonnet)に振る
- 不要な再呼び出しをキャッシュで排除
この「タスクに応じたモデルの使い分け」を自動化するだけで、API代が半分以下になるケースがある。
コスト感
- ツール自体:無料(オープンソース)
- 月額API代:3,000〜5,000円(適切に調整した場合。調整前は1〜3万円かかっていたケースも)
- 初期投資:0円
月額5,000円で、数百〜数千リクエストを処理できる環境が整う。
注意点
CLIベースなので、エンジニアがいないと導入のハードルが高い。ただし、一度セットアップしてしまえば運用は自動化できる。「エンジニアが1日かけて設定すれば、翌月からAPI代が月2万円浮く」——この投資対効果は、中小企業にとって十分すぎる。
—
手法③:Apple Silicon MacでローカルLLMサーバーを立てる
何がすごいのか
M1以降のApple Silicon Macは、ユニファイドメモリ(CPU・GPUが同じメモリを共有する構造)のおかげで、LLMの推論処理が異常に効率的に動く。ここに目をつけたのがOMLX(旧MLX Examples)などのプロジェクトだ。
AppleのMLXフレームワーク上で動作し、M2/M3/M4 Macであれば、13Bパラメータクラスのモデルをローカルで快適に動かせる。M4 Pro(48GBメモリ)なら、70Bクラスも視野に入る。
コスト感
- 初期投資:すでにMacを持っていれば0円。新規購入でもM2 Mac miniなら約10万円〜
- 月額電気代:約300〜1,000円(Mac miniの消費電力は負荷時でも30〜60W)
- API代:0円(完全ローカル)
月額1,000円以下。しかもレスポンスはAPI経由より速いケースすらある。ネット回線の遅延がゼロだからだ。
注意点
最大の利点は「データが外に出ない」こと。顧客情報や社内文書を扱う中小企業にとって、これは決定的なメリットだ。クラウドAPIに社内データを投げることへの不安——これが一発で解消される。
一方、モデルの更新やチューニングは自分でやる必要がある。ただし、Ollamaなどのツールを組み合わせれば、モデルの入れ替えはコマンド一発だ。
—
3つの手法を比較する
| スマホクラスター | エージェントCLI調整 | ローカルMacサーバー | |
|---|---|---|---|
| 月額コスト | 500〜1,500円 | 3,000〜5,000円 | 300〜1,000円 |
| 初期投資 | 0〜2万円 | 0円 | 0〜15万円 |
| 導入難易度 | 高い | 中程度 | 低い |
| 処理性能 | 7Bクラス | API依存(最大級も可) | 13〜70Bクラス |
| データの外部送信 | なし | あり(API利用) | なし |
| 安定性 | 実験的 | 高い | 高い |
| 向いている用途 | 軽量タスク、実験 | 開発・コーディング支援 | 社内文書処理、FAQ、要約 |
—
で、中小企業はどうすればいいのか
「3つ全部やれ」とは言わない。現実的な導入順序はこうだ。
まず、手法③のローカルMacサーバーから始める。
理由はシンプルだ。すでにMacがある会社は多い。Ollamaをインストールしてモデルをダウンロードするだけなら、30分で動く。データも外に出ない。月額コストはほぼ電気代だけ。「AIを試す」最初の一歩として、これ以上ハードルの低い方法はない。
次に、API利用が必要な場面(高精度な回答が求められるケース)では、手法②のエージェントCLI調整を入れる。モデルの使い分けを自動化するだけで、API代が半減する。
手法①のスマホクラスターは、今すぐの実用というより「こういう世界が来ている」というリテラシーとして知っておく価値がある。技術が成熟すれば、中古スマホが中小企業の計算資源になる日は確実に来る。
—
本当に変わるのは「コスト」ではなく「意思決定の構造」
最後に、ひとつ問いかけたい。
AIの月額コストが1万円以下になったとき、変わるのは経費の数字だけだろうか?
違う。「AIを使うかどうか」が、もはや経営判断ではなくなる。
月100万円なら稟議が要る。月1万円なら、現場の担当者が自分の判断で始められる。これは「コスト削減」ではなく「意思決定の民主化」だ。
大企業は巨大なデータセンターを持っている。だが、中小企業には「現場の判断で即座に動ける」という武器がある。月1万円以下のAIインフラは、その武器を最大化する。
引き出しのスマホ、机の上のMac、ターミナルのCLI。すでに手元にあるもので、AIは動く。
まず、今日Ollamaをインストールするところから始めてみてほしい。
—
JA
EN