人とロボットが共存・協働する未来を拓く空間World Model技術を開発

空間まるごとの未来を予測して人とロボットのシームレスな協調を実現

富士通株式会社

2025年12月2日 15時10分

2025年12月2日
富士通株式会社

当社は、現実世界の物理法則を理解したAIであるPhysical AIの研究を発展させるべく、当社の強みであるコンピュータビジョン技術をベースに、人とロボットの相互作用を予測できる空間World Model技術（以下、本技術）を開発しました。本技術により、空間内の人・ロボット・物体の未来の状態を予測して、従来では困難であった人とロボットの協調動作、複数ロボット間の最適な協調動作を実現します。
本技術は、2026年1月6日から2026年1月9日まで米国ラスベガスで開催されるCES2026にデモ出展します。また、2026年度中（当社の決算期は3月末日）に、当社の本店で研究開発の主要拠点であるFujitsu Technology Parkなどを活用して、技術実証を進めていきます。

【現在のPhysical AIの課題と富士通のAI・コンピュータビジョン技術の強み】

近年のAI技術の進歩は目覚ましく、これまで主にデジタル空間で発展してきたAIを現実世界に展開する動きが活発化しています。特にAIに物理法則を学習させて自律行動させる、Physical AIの研究が盛んになっています。Physical AIは、自動運転、スマートファクトリーなど、実空間での様々な課題を解決する鍵として期待されており、深刻化する労働力不足への対応や産業の生産性向上に向けて注目を集めています。
しかし、現在のPhysical AIは、通路が規定された製造現場や物流倉庫など整備された環境での活用が中心で、人が生活する住宅やオフィスでは、人の動きが予測困難で物の配置も頻繁に変化するため空間の状況把握が難しく、適応が困難という課題があります。また、多数の人やロボットが共存する環境では、他者がどう動くのか次の行動を予測できず、協調動作を実現することが難しいのが現状です。
当社は、これまで商業施設での人流解析、防犯分野での異常行動検出など、空間を把握するコンピュータビジョン技術、ならびに、人と協調して自律的に業務を推進する「Fujitsu Kozuchi AI Agent」など、デジタル領域でのAI技術を発展させてきました。このAI・コンピュータビジョン技術を活かしてPhysical AI研究を発展させるべく、当社は2025年4月に「空間ロボティクス研究センター」を設立し、人とロボットが協調する新しい社会の実現に向けた研究を本格化させました。今回、本研究センターの成果として、複雑な実空間を把握するコンピュータビジョン技術をベースに実用的なPhysical AIを実現する空間World Model技術を開発しました。空間全体のリアルタイムでのWorld Model構築により、整備されていない一般的な環境であっても、人とロボットの協調動作、複数ロボット間の協調動作を実現します。

【空間内の人・ロボット・モノの未来の状況を予測できる空間World Model技術の特長】

空間World Model技術（以下、本技術）の特長は以下の2点です。

1.人・ロボット・モノの相互作用に着目した3Dシーングラフで空間World Modelを構築

一般環境では人やロボットが移動するなど、空間の状況も動的に変化します。空間全体を把握するために、防犯カメラやロボットカメラを統合する技術が検討されてきましたが、各カメラで捉えられる範囲や、固定型カメラと移動型カメラでの見た目（歪みなど）の差異が大きく、動的に変化する空間をリアルタイムに把握することは困難でした。そこで、見た目の差異の影響を受けやすい画素単位での統合ではなく、人やロボットといった物体（図中の枠）をベースに空間カメラとロボットカメラを統合して、視野、歪みなどの影響をおさえつつ、空間全体を把握できる技術を開発しました。これにより、複雑に変化する実空間をリアルタイムに把握することができます。

2.空間World Modelで人・ロボット・モノの相互作用をモデリングし、起こり得る行動を推定して未来の状態を予測

人やロボットが協調するためには、相手の行動だけでなく、行動の背景にある意図を推定して未来の行動を予測することが重要です。ロボットの周囲の変化を予測して自身の行動を決めるWorld Model技術が盛んに研究されていますが、目の前の環境しかモデル化できず、空間中の人やロボットの状況変化を捉えることができませんでした。
そこで、空間における人、ロボット、モノの3Dシーングラフの時系列データを活用して、空間全体のWorld Modelを学習する方式を開発しました。人、ロボット、モノ間の多様な相互作用性から、複数の行動主体が起こす次の行動を推定することで、対象の空間における未来の状態を予測します。空間内を時系列に予測することで、自律ロボット間の衝突回避や複数ロボット間での最適な協調動作プランの生成などを実現できます。

カメラ映像からの空間把握と空間内の人・ロボット・モノの未来の状態を予測する空間World Model

これらの技術により、学術的な公開ベンチマークデータ（注1）において、他者の行動意図推定精度を従来の3倍向上（当社比）できることを確認しました。

【商標について】

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

【注釈】

注1　JRDB-Social：

カメラを通じて人の行動や行動目的を推定するベンチマーク

【当社のSDGsへの貢献について】

2015年に国連で採択された持続可能な開発目標（Sustainable Development Goals：SDGs）は、世界全体が2030年までに達成すべき共通の目標です。当社のパーパス（存在意義）である「イノベーションによって社会に信頼をもたらし、世界をより持続可能にしていくこと」は、SDGsへの貢献を約束するものです。