AIが勝手にマウスを動かす時代——属人化業務の自動化コスト、月15万→月3万の衝撃

結論から言う。「画面操作」がAIに渡った これまでAIにやらせるには、APIを繋ぎ、コードを書き、システムを組む必要があった。 それが今、AIが人間と同じようにマウスを動かし、画面を見て、クリックする段階に入った。 Google Dee

By Kai

|

Related Articles

結論から言う。「画面操作」がAIに渡った

これまでAIにやらせるには、APIを繋ぎ、コードを書き、システムを組む必要があった。
それが今、AIが人間と同じようにマウスを動かし、画面を見て、クリックする段階に入った。

Google DeepMindの「AIマウスポインタ」、Anthropicの「コンピュータ使用API」、そしてMira Murati氏(元OpenAI CTO)が率いるThinking Machines Labの「インタラクティブAI」。2024年後半から2025年にかけて、主要プレイヤーが一斉に同じ方向を向いている。

「AIが画面を勝手に操作する」——この一点に集約される。

で、これが中小企業にとって何を意味するか。
属人化していた画面操作業務の自動化コストが、月15万円から月3万円に落ちる可能性がある。RPAに数百万円かけていた時代が、静かに終わろうとしている。

3つの技術、何が違うのか

まず整理しよう。3つのアプローチは似ているようで、狙いが違う。

Google DeepMind「AIマウスポインタ」

GoogleのGeminiをベースに、マウスポインタそのものにAIを載せる発想。ユーザーがポインタで何かを指し示すと、AIがその対象を理解し、文脈を読み取る。デモでは画像編集や地図上のスポット検索が披露された。

ポイントは「ブラウザ統合」だ。ChromeやChromebookに組み込まれれば、追加のソフトなしで使える。Googleのエコシステムに乗っている企業ほど恩恵が大きい。

狙い:ブラウザ上の操作を、AIが「見て理解して」補助する

Anthropic「コンピュータ使用API」

AnthropicのClaude 3.5 Sonnetに搭載された機能で、AIがデスクトップ全体を操作できる。スクリーンショットを撮り、画面の状態を認識し、マウスカーソルを動かし、キーボード入力を行う。

これはブラウザに限定されない。デスクトップアプリ、業務システム、レガシーなソフトウェア——画面があれば何でも操作対象になる。中小企業にとってはここが重要だ。古い業務システムをAPI化する必要がない。画面をそのまま操作させればいい。

狙い:あらゆるデスクトップ操作を、AIが人間の代わりに実行する

Thinking Machines Lab「インタラクティブAI」

Mira Murati氏が提唱しているのは、従来の「人間が指示→AIが応答」というターン制の限界を超えること。AIがユーザーの画面操作をリアルタイムで観察し、頼まれる前に次のアクションを提案・実行する

まだ研究段階の色が強いが、方向性は明確だ。「指示しなくても勝手にやってくれるAI」への布石である。

狙い:指示なしで動く、リアルタイム協調型AI

中小企業にとって何が変わるのか——コストの構造が壊れる

ここからが本題だ。

中小企業の現場には、「この人しかできない画面操作」が山ほどある。

  • 毎月の請求書を会計ソフトに手入力する
  • 受注データをExcelから基幹システムに転記する
  • 在庫数を複数のECモールの管理画面で更新する
  • 勤怠データを給与計算ソフトに流し込む

どれも「画面を見て、クリックして、入力する」作業だ。そしてどれも、特定の担当者に属人化している。

これまでの自動化手段と、そのコスト感を比較する。

手段 初期費用 月額ランニング 課題
RPA(UiPath等) 100〜500万円 10〜30万円 画面変更で壊れる。保守に専門人材が必要
SIerにシステム連携を依頼 300〜1000万円 5〜20万円 開発期間が長い。仕様変更に弱い
パート・アルバイト 0円 15〜25万円 属人化。休まれたら止まる
画面操作AI(2025年〜) 0〜5万円 2〜5万円 精度はまだ発展途上。監視は必要

桁が違う。

RPAに300万円かけて導入し、画面のレイアウトが変わるたびにSIerに修正費用を払っていた世界が、月3万円のAPI利用料で置き換わる可能性がある

具体的なコスト構成を試算するとこうなる。

  • AI API利用料(Anthropic Claude等):月額1〜2万円(処理量による従量課金。請求書100件/月程度なら1万円以下)
  • 実行環境(クラウドPC等):月額5,000〜1万円(AIが操作するための仮想デスクトップ)
  • 監視・エラー対応の人的コスト:月額5,000〜1万円相当(完全放置はまだ早い。週1回のチェック程度)

合計:月額2〜4万円。中央値を取って月3万円。

これまで月15万円の人件費をかけていた業務が、月3万円になる。年間で144万円の削減。しかも属人化が解消される。担当者が辞めても、AIの設定は残る。

「で、今すぐ使えるのか?」——正直に言う

期待を煽るだけでは無責任なので、現時点の制約も書く。

Anthropicのコンピュータ使用APIは、今すぐ試せる。 ただし「ベータ版」だ。精度は体感で70〜80%。10回に2〜3回は間違ったボタンをクリックする。複雑な画面遷移や、ポップアップが多いシステムでは失敗率が上がる。

Google DeepMindのAIマウスポインタは、まだ研究発表段階。 Chrome統合がいつになるかは未定。ただしGoogleの開発スピードを考えれば、2025年中に何らかの形で実装される可能性は高い。

Thinking Machines Labのインタラクティブ型は、さらに先の話。 コンセプトとしては最も野心的だが、プロダクトとして使えるのは早くても2026年以降だろう。

つまり、今日から実験できるのはAnthropicのAPI一択。そしてこの「実験できる」という事実が重要だ。

中小企業が今やるべきこと——3ステップ

1. 属人化業務を1つ選ぶ

全部を一気にやろうとしない。まず「この人が休んだら止まる」業務を1つだけ選ぶ。おすすめは請求書の入力作業ECモールの在庫更新。画面操作が定型的で、失敗しても取り返しがつくものがいい。

2. AnthropicのAPIで小さく試す

APIの利用登録は無料。従量課金なので、10件の請求書を処理させるだけなら数百円で済む。「AIに画面を操作させる」という体験を、まず自分の目で見ること。百聞は一見にしかず、ではなく「一実験は百記事にしかず」だ。

3. 精度を見て、本番投入か待機か判断する

精度が90%を超えるなら、人間のチェック付きで本番投入できる。80%以下なら、3ヶ月待ってもう一度試す。この分野の進化速度は異常に速い。半年前にできなかったことが、今日できるようになっている。

本質的な問い——「操作する」という仕事がなくなる

最後に、もう少し大きな話をする。

これまでの業務自動化は「システムとシステムをつなぐ」発想だった。APIで連携し、データベースを直接操作する。だから専門知識が必要で、コストが高かった。

画面操作AIは、この前提をひっくり返す。システムを改修する必要がない。画面さえあれば、AIが人間と同じように操作する。

これは中小企業にとって、大企業との格差を一気に縮めるチャンスだ。大企業が数千万円かけて構築したシステム連携と、中小企業が月3万円の画面操作AIで実現する自動化。結果が同じなら、コストが安い方が勝つ。

「画面を操作する」という仕事は、遠くない将来、人間がやる仕事ではなくなる。その時に備えて、今から小さく実験を始めておくこと。これが、地方の中小企業ができる最も合理的な一手だ。

月3万円で属人化が消える。この事実を、まず自分の手で確かめてほしい。

POPULAR ARTICLES

Related Articles

POPULAR ARTICLES

JP JA US EN