DoorDashはLLM評価を自作し、Metaはコードレビューの6割を自動承認した——「AIの品質管理をAIにやらせる」時代、中小企業は月5万円で何ができるか
Related Articles

AIを使う会社は増えた。でも「AIの出力を誰がチェックしているか」と聞くと、ほとんどの会社が黙る。
ChatGPTでメール文面を作る。GitHub Copilotでコードを書く。画像生成AIで販促素材を出す。中小企業のAI活用は確実に広がっている。
だが、ひとつ問いたい。その出力、誰がどうやって「合格」と判断しているのか?
答えが「担当者の感覚」なら、それは品質管理ではない。属人化した目視チェックだ。人が変われば基準も変わる。忙しければスルーされる。AIの出力量が増えるほど、この構造は破綻に向かう。
ここに先手を打ったのがDoorDashとMetaだ。両社とも「AIの品質管理をAI自身にやらせる」仕組みを自前で構築した。大企業だからできた話——と片付けるのは早い。この動きの本質を理解すれば、中小企業が月5万円以下で同じ構造を手に入れる道が見えてくる。
DoorDash:LLMの出力を「数値で測る」仕組みを作った
DoorDashが構築したのは、LLM(大規模言語モデル)の出力品質をリアルタイムで評価するシステムだ。
ポイントは3つある。
- 評価基準を明文化した。 「良い出力とは何か」を曖昧にせず、具体的な指標に落とし込んだ。
- 評価を自動化した。 人間が毎回チェックするのではなく、AIが出力を採点する仕組みにした。
- ROIを追跡可能にした。 AIの導入効果を数値で見える化し、経営判断に使えるようにした。
要するに、「AIを入れました、便利です」で終わらせず、「AIが出した答えの品質を、もうひとつのAIが常に監視している」状態を作ったということだ。
これは中小企業にとっても示唆が大きい。AIを使う段階から、AIの出力を管理する段階へ。このシフトが起きている。
Meta:53万件のコード変更を自動レビュー、6割を人間なしで承認
Metaが開発した「RADAR(Risk Aware Diff Auto Review)」の数字はさらに衝撃的だ。
- レビュー対象:535,000件以上のコード変更
- 自動承認:331,000件以上
- 承認率:60.31%
つまり、コードレビューの6割を人間がやらなくてよくなった。
RADARの仕組みはシンプルだ。コードの変更内容をリスクスコアで分類し、低リスクと判定されたものは自動で承認する。高リスクのものだけ人間のエンジニアに回す。閾値の調整で承認率をコントロールできる。
ここで起きているコスト構造の変化を考えてほしい。エンジニアのコードレビューにかかる時間を仮に1件あたり15分とすると、33万件×15分=約8万2,500時間。時給5,000円で換算すれば約4億円分の人件費が浮いた計算になる。
もちろんMetaの規模だからこその数字だが、構造は同じだ。「全部人間が見る」から「リスクの高いものだけ人間が見る」への転換。これは従業員5人の会社でも再現できる考え方だ。
一方、FlathubはAI生成コードを「全面禁止」した
面白い対比がある。Linux向けアプリ配信プラットフォームのFlathubは、AIが生成したアプリやコードの提出を禁止した。
理由は明快だ。品質を担保する仕組みがないまま大量のAI生成物が流入すると、プラットフォーム全体の信頼が崩壊するからだ。
これはDoorDashやMetaとは真逆のアプローチに見えるが、実は問題意識は同じだ。「AIの出力品質をどう管理するか」——この問いに対して、DoorDashとMetaは「管理する仕組みを作った」、Flathubは「管理できないなら入れない」と判断した。
中小企業が考えるべきは、自社がどちらの立場にいるかだ。品質管理の仕組みなしにAIを使い続けるのは、Flathubが恐れた状態そのものだ。
中小企業の現実:「品質管理」に300万円かけられるわけがない
DoorDashのような評価システムを自前で構築すれば、開発費は数百万〜数千万円。Metaのような専任チームを置けば、人件費だけで年間数千万円。中小企業には無理だ。
だが、同じ「構造」を月5万円以下で再現することはできる。
大事なのはシステムの豪華さではない。「AIの出力を、基準を決めて、自動でチェックし、ダメなものを弾く」という構造そのものだ。
月5万円以下で組める「AI品質管理」の具体的な仕組み
ステップ1:評価基準を「5項目以内」で決める(コスト:0円)
まず、自社のAI活用で「何がOKで何がNGか」を明文化する。DoorDashがやったことの簡易版だ。
例えばAIでメール文面を生成しているなら:
- 事実誤認がないか
- 社名・人名の間違いがないか
- 社内ルール(敬語の使い方等)に沿っているか
- 文字数が適切か
- 添付ファイルの案内漏れがないか
5項目でいい。100項目のチェックリストは誰も使わない。
ステップ2:AIにAIの出力をチェックさせる(コスト:月3,000〜5,000円)
ChatGPT API(GPT-4o mini)やClaude APIを使えば、AI出力のセルフチェックは驚くほど安く実装できる。
具体的には、ステップ1で決めた評価基準をプロンプトに組み込み、AIの出力を別のAI(または同じAIの別セッション)に評価させる。各項目を1〜5点でスコアリングし、合計点が閾値を下回ったら人間に差し戻す。
GPT-4o miniなら100万トークンあたり約15〜60セント。月に数千件のチェックをかけても月額数千円で収まる。
これはMetaのRADARと同じ構造だ。「リスクの低いものは通す。高いものだけ人間が見る。」
ステップ3:結果をスプレッドシートに自動記録する(コスト:0円)
Google Apps ScriptやZapierの無料枠を使い、チェック結果をスプレッドシートに自動蓄積する。日付、入力内容、出力内容、各項目のスコア、合否。これだけでいい。
1ヶ月も溜めれば、「どの項目でNGが多いか」「どのプロンプトだとスコアが低いか」が見えてくる。DoorDashが実現した「ROIの可視化」の簡易版だ。
ステップ4:月1回、30分のレビュー会議を回す(コスト:0円)
蓄積したデータを元に、月1回30分だけ振り返る。「先月はファクトチェックのNG率が15%だったから、プロンプトにソース確認の指示を追加しよう」——これだけで品質は確実に上がる。
ステップ5:外部ツールで精度を上げる(コスト:月1〜3万円)
余裕があれば、LangSmithやLangfuseといったLLMオブザーバビリティツール(いずれも無料枠あり)を導入する。プロンプトの変更履歴、レイテンシ、コスト、品質スコアをダッシュボードで一元管理できる。有料プランでも月1〜3万円程度だ。
ここまで全部やっても、月額5万円以下。初期開発費ゼロ。
この構造が効く理由:「コストが下がった」のはチェックする側も同じ
なぜこんなことが可能になったのか。答えはシンプルだ。
AIで文章を生成するコストが劇的に下がったのと同じように、AIで文章をチェックするコストも劇的に下がったからだ。
以前なら、品質管理には専任の人間が必要だった。校正者、レビュアー、テスター。それが今、APIを叩けば1件あたり0.01円以下でチェックできる。
「生成コストが下がったなら、検査コストも下がっているはずだ」——この当たり前の事実に気づいているかどうかで、AI活用の安全性はまったく変わる。
「まず作る側」ではなく「まずチェックする側」から始めよ
中小企業のAI活用で最も多い失敗パターンは、「AIで何を作るか」ばかり考えて「AIが作ったものをどう検品するか」を後回しにすることだ。
工場で考えればありえない話だ。製造ラインを作る前に検品ラインを設計しない工場はない。
AIも同じだ。出力する仕組みより先に、チェックする仕組みを作る。その順番を間違えなければ、中小企業でもAIは安全に使える。
で、結局どうすればいいのか
- 今日やること:自社のAI活用で「何がNGか」を5項目書き出す
- 今週やること:ChatGPT APIで出力のセルフチェックを試す
- 今月やること:チェック結果をスプレッドシートに溜め始める
DoorDashやMetaが数億円かけて作った仕組みの「構造」は、月5万円で手に入る。大企業と同じシステムは要らない。同じ考え方があればいい。
AIの出力を野放しにしている会社と、AIでAIを検品している会社。半年後、どちらが生き残っているかは明白だ。
—
JA
EN