みなさん、こんにちは。
先日、オンラインイベント「MONOist DX & AI Forum 2025」に参加しました。
様々なセッションがある中で、特に興味深かったのがアステリア株式会社・小幡雅彦氏による「AI×カメラ映像でここまで変わる“現場の自動化” ~VLM・フィジカルAIで実現する業務改善の最前線~」というセッションです。
私自身、現在gpt-4o-miniを活用して、機械の操作画面から数値やグラフを自動解析するツールを開発しています。そのため、VLM(大規模視覚言語モデル)の進化は常に肌で感じてきました。
しかし今回のセッションを聞いて、「カメラ映像 × AI」は単なる効率化技術ではなく、「現場の五感と手足をAIで再構築する」という、もっと巨大な潮流なのだと強く再認識させられました。
今回は、セッションの内容と、それを受けて私自身が行った調査・検証の結果をまとめてみたいと思います。
VLMがもたらした変化 – 画像は「読み取る」から「理解する」時代へ
ここ数年のVLM(Vision Language Model)の進化は目覚ましいものがあります。GPT-4o、Qwen VL、Llama Visionなど、新しいモデルが登場するたびに性能が向上しています。
これまでのOCR(文字認識)や単なる物体検知と何が違うのか。それは「文脈の理解」です。
- 画像に対して自然言語で質問ができる
- グラフ、図表、UIの構造を文脈として理解する
- 状況の説明、要約、異常箇所の指摘が可能
もはやカメラは単なる記録装置ではありません。「視覚とことば」が統合された知能を現場に持ち込める段階に来ているのです。
フィジカルAI – 現場の「脳と手足」をつなぐ
セッションの中で小幡氏が強調されていた「フィジカルAI(Physical AI)」という概念が、非常に腹落ちしました。
これは、以下の3つの要素をつなぐことで現場の自動化を実現するアプローチです。
フィジカルAIの3ステップ
- 把握(IoT・カメラ)
- 判断(VLMや推論AI)
- 行動(アクチュエーターやRPA)
ここで重要なのは、「行動」といっても必ずしもロボットアームを動かすような物理動作だけを指すのではない、という点です。
- 担当者へのチャット通知
- 操作ガイドの提示
- システム連携のトリガー
こうした「画面の外側で起こるラストワンマイルのアクション」も立派な行動です。
また、今のAIのように進化が驚くほど速い状況では、これらをガチガチに固めるのではなく、「疎結合」にして柔軟性を確保すべきという指摘は、開発者として大いに頷けるポイントでした。
VLMの調査 – コストか、それとも「現場での再現性」か
セッションに刺激を受け、「自分のプロジェクトで使っているモデルは本当に最適解なのか?」と疑問が湧きました。そこで、現在主流のモデルについて、先人のレビューを参考にしながら比較検討を行ってみました。
比較対象は以下の3つです。
- Qwen2.5-VL-7B(Alibaba系オープンモデル)
- Llama 3.2 Vision 11B(Meta系オープンモデル)
- gpt-4o-mini(OpenAI)
現場視点でのモデル比較
実際に現場で使うことを想定すると、評価軸は「コスト」と「安定性(再現性)」のトレードオフになります。私が感じた比較感は以下の通りです。
| モデル | 強み | 懸念点 | 現場適性 |
| Qwen2.5-VL-7B | コスト最強(OpenAIの約1/10)。API互換で導入も容易。 | グラフ数値や専門用語を含む日本語で精度が揺れることがある。プロンプト調整に工夫が必要。 | コスト重視なら◎ |
| Llama 3.2 Vision | ドキュメント理解に強く、VQA精度も高いとの評判。 | UI画像の「細部解釈」で揺れが出やすい。日本語の自然さはOpenAI系に及ばない印象。 | 文書解析なら◯ |
| gpt-4o-mini | 圧倒的な安定感。UI+テキスト+グラフの統合理解が得意。稼働率も高い。 | オープン系モデルに比べるとランニングコストはかかる。 | 実運用なら◎ |
結論 – 現場では「安定性が王」である
調査の結果、私のプロジェクトでは「gpt-4o-miniの継続利用」という結論に至りました。
理由はシンプルです。現場において「1%の誤読」は、そのリカバリーのために「50%のオペレーションコスト」を発生させるリスクがあるからです。
多少のAPIコスト差よりも、意図した通りに毎回動いてくれる「再現性」の価値の方が、実運用では遥かに大きいと再確認しました。ただし、gpt-4o-mini がいつまでも最適解とは限らないので、絶えず情報のアンテナを張っておかなければならないとは感じました。
最小単位のフィジカルAIを実践する
現在、私が運用しているツールは、まさにこの「把握・判断・行動」のサイクルを回しています。
- 把握: 機械のアラームを検知し、自動でスクリーンショットを撮影
- 判断: VLM(gpt-4o-mini)で画像を解析
- 行動: 解析結果をチャットに投稿し、人間の判断を仰ぐ
実際のチャット通知イメージ
🔔 [自動] 機械A 異常検知
AI解析: HIGH TEMP(85℃)
項目: TEMP
❓ 対応が必要ですか? [Yes][No]
これこそが、セッションで語られたフィジカルAIの最小単位なのではないかと自負しています。
5. おわりに – VLM × フィジカルAIはどこへ向かうか
今回のセッションと調査を経て、現場自動化の未来は「単なる監視」から「時空間の理解」へと進んでいく予感がしています。
- 複数カメラによる空間把握
- 作業の自動タグ付けとログ生成
- 人間の判断を補助する「AIコパイロット」
特に自動運転の分野では、すでにVLMを用いた高度な空間理解が進んでいます。
参考:なぜ自動運転に生成AIが必要か? Turing株式会社
このような技術が、工場のラインや建設現場に降りてくるのも時間の問題でしょう。
とはいえ、いきなり大規模な自前GPUサーバーを立てる必要はありません。
まずは「自分の現場に最適なVLMを選び、小さなアクションとつなげる」ことが重要だと改めて実感しました。
フィジカルAIの未来は明るいですが、その第一歩は意外と手元にあるのだと思います。
今後はセッションで得た知見を活かしながら、プロジェクトをさらに発展させていきたいと考えています。
VLMやフィジカルAIについてご意見交換いただける方は、ぜひこちらからお気軽にご連絡ください。
本日も最後までお読みいただき、ありがとうございました。
それでは、よい事業開発を!



