768GBメモリで1兆パラメータLLMが動く——「AIは借りるもの」という常識が終わりつつある

結論から言う。「AIを持つ」コストが壊れ始めた 1兆パラメータのLLMが、たった1台のサーバーで動く。 768GBのIntel Optane Persistent Memoryを積んだマシンに、GPU1枚。これだけで、GPT-4クラスの

By Kai

|

Related Articles

結論から言う。「AIを持つ」コストが壊れ始めた

1兆パラメータのLLMが、たった1台のサーバーで動く。

768GBのIntel Optane Persistent Memoryを積んだマシンに、GPU1枚。これだけで、GPT-4クラスのパラメータ数を持つモデルがローカルで推論できる。毎秒約4トークン。速くはない。だが「動く」という事実が重要だ。

なぜか。これまで1兆パラメータ級のモデルを動かすには、数千万円規模のGPUクラスタか、OpenAIやGoogleのAPIを叩くしかなかった。それが今、ハードウェア一式で200万〜300万円程度の初期投資で手が届く距離に来ている。

中小企業の経営者にとって、この意味を考えてほしい。

「AIは大企業のもの」「クラウドで借りるもの」——その前提が、ハードウェアの価格崩壊によって根底から揺らいでいる。

何が起きたのか:メモリ価格の地殻変動

Intel Optane Persistent Memory(PMem)は、もともとデータセンター向けの高価なメモリだった。しかしIntelがOptane事業から撤退を表明して以降、市場に在庫が大量に放出された。結果、768GB構成(128GB DIMM×6本)が約5,000ドル(約75万円)前後で入手可能になっている。

通常のDDR5 DRAMで768GBを組もうとすると、それだけで100万円を超える。Optaneは通常のDRAMより帯域幅が狭く、レイテンシも大きい。だが「巨大モデルのパラメータをメモリに載せておく」という用途では、この弱点が致命的にならない。推論時のボトルネックはGPUの演算速度であり、メモリはパラメータの倉庫として機能すればいいからだ。

つまり、性能の妥協ではなく、用途の最適化で成り立っている。これが重要なポイントだ。

「借りる」と「持つ」の損益分岐点を計算する

具体的な数字で比較しよう。

【自社保有の場合】

  • Intel Optane PMem 768GB構成:約75万円
  • GPU(NVIDIA A100 80GB相当、中古市場):約80万〜120万円
  • サーバー本体(CPU・マザーボード・電源・ストレージ等):約50万〜80万円
  • 初期投資合計:約200万〜280万円
  • 月額電気代(常時稼働、約600W想定):約1万〜1.5万円
  • 保守・運用コスト:月額約1万円
  • 月額ランニングコスト:約2万〜3万円

【クラウドAPI利用の場合】

  • GPT-4クラスのAPI利用料:入力$30/100万トークン、出力$60/100万トークン(2024年時点の目安)
  • 社内で1日あたり50万トークン消費する場合、月間約1,500万トークン
  • 月額コスト:約6万〜10万円
  • 利用量が増えれば青天井

API利用で月8万円かかっている企業なら、自社保有の損益分岐点は約30〜35ヶ月。3年弱で元が取れる計算だ。

ただし、ここで見落としてはいけない数字がある。API利用量は「増える一方」だということだ。社内でAI活用が浸透すれば、トークン消費量は半年で2〜3倍になるケースが珍しくない。そうなると損益分岐点は12〜18ヶ月まで縮まる。

さらに言えば、自社保有には「使い放題」という質的な違いがある。APIの従量課金を気にして利用を制限している企業は多い。「もったいないから使わない」——これはAI活用における最大の機会損失だ。

毎秒4トークンで十分なのか?

「毎秒4トークン、遅すぎないか?」という疑問は当然出る。

毎秒4トークンは、日本語にして毎秒約2〜3文字。チャットの応答としては確かに遅い。リアルタイムの顧客対応には厳しい。

だが、中小企業の現場でAIが本当に必要とされるユースケースを考えてほしい。

  • 夜間バッチ処理:日報の要約、問い合わせメールの分類、見積書のドラフト生成。これらは「朝までに終わっていればいい」仕事だ。毎秒4トークンでも、一晩で数十万トークンを処理できる。
  • 社内ナレッジ検索:マニュアルや過去の議事録から回答を生成する。数秒〜数十秒の待ち時間は、人間が資料を探す時間より圧倒的に短い。
  • データ分析レポート生成:売上データや顧客データを食わせて分析レポートを出す。30秒かかっても、人間が半日かけていた仕事が自動化される。

速度が必要な用途にはAPIを使い、コスト感度が高い大量処理は自社サーバーで回す。このハイブリッド運用が、中小企業にとって最も現実的な着地点だろう。

「AIサーバーの共同購入」という選択肢

200万〜300万円の初期投資。中小企業にとって軽い金額ではない。

ここで注目したいのが、分散型AIコンピュート協同組合という考え方だ。要は「AIサーバーの共同購入・共同利用」である。

地域の中小企業5社で1台のAIサーバーを共同保有すれば、1社あたりの初期投資は40万〜60万円。月額のランニングコストも分担できる。業種が異なれば利用時間帯も分散するため、稼働率も上がる。

実際、海外ではGPUの共同利用プラットフォームが複数立ち上がっている。日本でも、商工会議所や地域の産業支援機関が音頭を取れば、十分に成立するモデルだ。

この仕組みの本質は「大企業がスケールメリットで得ているコスト優位を、中小企業が連携で再現する」ことにある。1社では大企業に勝てない。だが5社、10社が組めば、計算リソースの調達コストは大企業と同等以下にできる。

重要なのは、データは各社のものとして分離し、計算リソースだけを共有する設計にすること。これなら機密性の問題もクリアできる。

「このままAPI課金でいいのか?」という問い

多くの中小企業が、OpenAIやGoogleのAPIを使ってAI活用を始めている。それ自体は正しい。初期投資ゼロで始められるAPIは、最初の一歩として最適だ。

だが、ここで立ち止まって考えてほしい。

API課金モデルは、使えば使うほどコストが増える。AI活用が進むほど、利益を圧迫する構造だ。しかも、APIの価格決定権は提供側にある。値上げされれば従うしかない。モデルが廃止されれば、業務フローを一から作り直す必要がある。

これは「AIを活用している」のではなく、「AIに依存している」状態だ。

自社でハードウェアを持つことの最大の価値は、コスト削減ではない。コントロールを取り戻すことだ。

  • モデルを自由に選べる(Llama、Mistral、Qwen、日本語特化モデル等)
  • データが外部に出ない
  • 利用量を気にせず実験できる
  • APIの仕様変更や価格改定に振り回されない

特に3つ目の「利用量を気にせず実験できる」は、中小企業のAI活用において決定的に重要だ。AI活用の成否は、どれだけ試行錯誤できるかで決まる。従量課金の恐怖が実験を止めている企業は、思っている以上に多い。

で、結局どうすればいいのか

今すぐ全企業がAIサーバーを買うべきだ、とは言わない。

だが、以下の条件に当てはまる企業は、真剣に検討する価値がある。

  1. 月額のAPI利用料が5万円を超えている——損益分岐点が現実的な範囲に入る
  2. 機密性の高いデータをAIに処理させたい——顧客情報、財務データ、契約書など
  3. AI活用を全社展開したいが、従量課金がネックになっている——使い放題環境が突破口になる
  4. 地域に同じ課題を持つ企業がいる——共同保有でコストを分散できる

768GBメモリで1兆パラメータLLMが動く。この事実が示しているのは、AIの民主化がハードウェアレベルで起きているということだ。

クラウドの巨人たちが提供する「便利だが高い」サービスに依存し続けるか。自分たちの手でAIを持ち、コントロールするか。

この選択を迫られる日は、思っているより早く来る。というか、もう来ている。

POPULAR ARTICLES

Related Articles

POPULAR ARTICLES

JP JA US EN