768GBメモリで1兆パラメータLLMが動く——「AIは借りるもの」という常識が終わりつつある
Related Articles

結論から言う。「AIを持つ」コストが壊れ始めた
1兆パラメータのLLMが、たった1台のサーバーで動く。
768GBのIntel Optane Persistent Memoryを積んだマシンに、GPU1枚。これだけで、GPT-4クラスのパラメータ数を持つモデルがローカルで推論できる。毎秒約4トークン。速くはない。だが「動く」という事実が重要だ。
なぜか。これまで1兆パラメータ級のモデルを動かすには、数千万円規模のGPUクラスタか、OpenAIやGoogleのAPIを叩くしかなかった。それが今、ハードウェア一式で200万〜300万円程度の初期投資で手が届く距離に来ている。
中小企業の経営者にとって、この意味を考えてほしい。
「AIは大企業のもの」「クラウドで借りるもの」——その前提が、ハードウェアの価格崩壊によって根底から揺らいでいる。
何が起きたのか:メモリ価格の地殻変動
Intel Optane Persistent Memory(PMem)は、もともとデータセンター向けの高価なメモリだった。しかしIntelがOptane事業から撤退を表明して以降、市場に在庫が大量に放出された。結果、768GB構成(128GB DIMM×6本)が約5,000ドル(約75万円)前後で入手可能になっている。
通常のDDR5 DRAMで768GBを組もうとすると、それだけで100万円を超える。Optaneは通常のDRAMより帯域幅が狭く、レイテンシも大きい。だが「巨大モデルのパラメータをメモリに載せておく」という用途では、この弱点が致命的にならない。推論時のボトルネックはGPUの演算速度であり、メモリはパラメータの倉庫として機能すればいいからだ。
つまり、性能の妥協ではなく、用途の最適化で成り立っている。これが重要なポイントだ。
「借りる」と「持つ」の損益分岐点を計算する
具体的な数字で比較しよう。
【自社保有の場合】
- Intel Optane PMem 768GB構成:約75万円
- GPU(NVIDIA A100 80GB相当、中古市場):約80万〜120万円
- サーバー本体(CPU・マザーボード・電源・ストレージ等):約50万〜80万円
- 初期投資合計:約200万〜280万円
- 月額電気代(常時稼働、約600W想定):約1万〜1.5万円
- 保守・運用コスト:月額約1万円
- 月額ランニングコスト:約2万〜3万円
【クラウドAPI利用の場合】
- GPT-4クラスのAPI利用料:入力$30/100万トークン、出力$60/100万トークン(2024年時点の目安)
- 社内で1日あたり50万トークン消費する場合、月間約1,500万トークン
- 月額コスト:約6万〜10万円
- 利用量が増えれば青天井
API利用で月8万円かかっている企業なら、自社保有の損益分岐点は約30〜35ヶ月。3年弱で元が取れる計算だ。
ただし、ここで見落としてはいけない数字がある。API利用量は「増える一方」だということだ。社内でAI活用が浸透すれば、トークン消費量は半年で2〜3倍になるケースが珍しくない。そうなると損益分岐点は12〜18ヶ月まで縮まる。
さらに言えば、自社保有には「使い放題」という質的な違いがある。APIの従量課金を気にして利用を制限している企業は多い。「もったいないから使わない」——これはAI活用における最大の機会損失だ。
毎秒4トークンで十分なのか?
「毎秒4トークン、遅すぎないか?」という疑問は当然出る。
毎秒4トークンは、日本語にして毎秒約2〜3文字。チャットの応答としては確かに遅い。リアルタイムの顧客対応には厳しい。
だが、中小企業の現場でAIが本当に必要とされるユースケースを考えてほしい。
- 夜間バッチ処理:日報の要約、問い合わせメールの分類、見積書のドラフト生成。これらは「朝までに終わっていればいい」仕事だ。毎秒4トークンでも、一晩で数十万トークンを処理できる。
- 社内ナレッジ検索:マニュアルや過去の議事録から回答を生成する。数秒〜数十秒の待ち時間は、人間が資料を探す時間より圧倒的に短い。
- データ分析レポート生成:売上データや顧客データを食わせて分析レポートを出す。30秒かかっても、人間が半日かけていた仕事が自動化される。
速度が必要な用途にはAPIを使い、コスト感度が高い大量処理は自社サーバーで回す。このハイブリッド運用が、中小企業にとって最も現実的な着地点だろう。
「AIサーバーの共同購入」という選択肢
200万〜300万円の初期投資。中小企業にとって軽い金額ではない。
ここで注目したいのが、分散型AIコンピュート協同組合という考え方だ。要は「AIサーバーの共同購入・共同利用」である。
地域の中小企業5社で1台のAIサーバーを共同保有すれば、1社あたりの初期投資は40万〜60万円。月額のランニングコストも分担できる。業種が異なれば利用時間帯も分散するため、稼働率も上がる。
実際、海外ではGPUの共同利用プラットフォームが複数立ち上がっている。日本でも、商工会議所や地域の産業支援機関が音頭を取れば、十分に成立するモデルだ。
この仕組みの本質は「大企業がスケールメリットで得ているコスト優位を、中小企業が連携で再現する」ことにある。1社では大企業に勝てない。だが5社、10社が組めば、計算リソースの調達コストは大企業と同等以下にできる。
重要なのは、データは各社のものとして分離し、計算リソースだけを共有する設計にすること。これなら機密性の問題もクリアできる。
「このままAPI課金でいいのか?」という問い
多くの中小企業が、OpenAIやGoogleのAPIを使ってAI活用を始めている。それ自体は正しい。初期投資ゼロで始められるAPIは、最初の一歩として最適だ。
だが、ここで立ち止まって考えてほしい。
API課金モデルは、使えば使うほどコストが増える。AI活用が進むほど、利益を圧迫する構造だ。しかも、APIの価格決定権は提供側にある。値上げされれば従うしかない。モデルが廃止されれば、業務フローを一から作り直す必要がある。
これは「AIを活用している」のではなく、「AIに依存している」状態だ。
自社でハードウェアを持つことの最大の価値は、コスト削減ではない。コントロールを取り戻すことだ。
- モデルを自由に選べる(Llama、Mistral、Qwen、日本語特化モデル等)
- データが外部に出ない
- 利用量を気にせず実験できる
- APIの仕様変更や価格改定に振り回されない
特に3つ目の「利用量を気にせず実験できる」は、中小企業のAI活用において決定的に重要だ。AI活用の成否は、どれだけ試行錯誤できるかで決まる。従量課金の恐怖が実験を止めている企業は、思っている以上に多い。
で、結局どうすればいいのか
今すぐ全企業がAIサーバーを買うべきだ、とは言わない。
だが、以下の条件に当てはまる企業は、真剣に検討する価値がある。
- 月額のAPI利用料が5万円を超えている——損益分岐点が現実的な範囲に入る
- 機密性の高いデータをAIに処理させたい——顧客情報、財務データ、契約書など
- AI活用を全社展開したいが、従量課金がネックになっている——使い放題環境が突破口になる
- 地域に同じ課題を持つ企業がいる——共同保有でコストを分散できる
768GBメモリで1兆パラメータLLMが動く。この事実が示しているのは、AIの民主化がハードウェアレベルで起きているということだ。
クラウドの巨人たちが提供する「便利だが高い」サービスに依存し続けるか。自分たちの手でAIを持ち、コントロールするか。
この選択を迫られる日は、思っているより早く来る。というか、もう来ている。
—
JA
EN