NVIDIA、フィジカル AI のためのオープンな最先端の基盤モデル、 Cosmos 3 を発表

ニュース概要:
-
NVIDIA Cosmos 3 は、フィジカル AI のリーズニング、ワールド シミュレーション、アクション生成向けの画期的な mixture-of-transformers アーキテクチャを基盤に構築された、リーダーボードのトップを飾る新しいオープンなフィジカル AI基盤 モデル
-
Cosmos 3 は、最先端の合成データ生成とフィジカル AI のポリシー モデル開発のために、テキスト、画像、動画、環境音、アクションにわたるネイティブなビジョン リーズニングとマルチモーダル生成を備えた、完全にオープンなオムニモデル
-
NVIDIA は、Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI といった主要な AI ラボやロボティクスのリーダーと NVIDIA Cosmos Coalition を立ち上げ、次世代のオープンな世界基盤モデルを発展
台湾、台北 — NVIDIA GTC Taipei — 2026 年 6 月 1 日 — NVIDIA は本日、ビジョン リーズニング、ワールド生成、アクション予測を単一のシステムに統合した、画期的な mixture-of-transformers アーキテクチャに基づくフィジカル AI 用のオープンな世界基盤モデル、NVIDIA Cosmos™ 3 を発表しました。
Cosmos 3 は完全にオープンなオムニモデルで、テキスト、画像、動画、環境音、アクションをネイティブに理解して生成できるもので、従来は数カ月かかっていたフィジカル AI のトレーニングと評価サイクルにかかる時間を数日に短縮します。
また、NVIDIA は、Agile Robots、Black Forest Labs、Dyna Robotics、Generalist、LTX、Runway、Skild AI といった世界的なモデル ビルダーと AI 開発者とのグローバル なエコシステム構想である Cosmos Coalition を立ち上げ、協力して次世代の世界モデルの発展に取り組みます。
NVIDIA の創業者/ CEO であるジェンスン フアン (Jensen Huang) は、次のように述べています。「マルチモーダルなリーズニング、言語、視覚、世界モデルの飛躍的な進歩により、フィジカル AI のビッグバンがすぐそこまで来ています。Cosmos 3 ファミリーのオープンな最先端オムニモデルにより、開発者はロボット、自動運転車、ビジョン AI を構築する能力において、世代を超えた飛躍を遂げることができます。これらは物理的な世界で認識、リーズニング、計画し行動するものです」
フィジカル AI のための新たなアーキテクチャ
Cosmos 3 は、ロボット、自動運転車 (AV)、ビジョン エージェントに対し、限られた学習 データと断片化されたシミュレーション スタックを用いて現実世界での汎化を目指すというフィジカル AI の基本課題に取り組んでいます。
モデルの mixture-of-transformers アーキテクチャは、リーズニングのためのトランスフォーマーとエキスパート生成型トランスフォーマーを組み合わせることで、Cosmos 3 が動画や動作軌跡を生成する前に、オブジェクトの相互作用、動き、空間と時間的な関係を理解できるようにします。
このモデルは、テキスト、画像、動画、サウンド、動作軌跡から得られた数十億ものサンプルを含む、最大規模のマルチモーダルな フィジカル AI データセットの 1 つを用いて学習されたもので、開発者に対してより少ないデータと低い学習コストでフィジカル AI システムを構築するための、強力な事前学習済み基盤モデルとして機能します。
開発者にとっての Cosmos 3 の用途は以下のとおりです。
-
さまざまなモダリティを理解し、リーズニングする視覚言語モデル
-
物理環境をシミュレートし、学習と評価のために未来の世界状態を予測する世界基盤モデルまたは動画基盤モデル
-
ロボットが特定のタスクの実行を学習するのに役立つ世界行動モデルのバックボーン
Cosmos 3 は、フィジカル AI ベンチマークでトップクラスの結果を実現しています。オープンモデル同士の比較において、世界生成の精度においては Artificial Analysis、Physics-IQ、PAI-Bench、R-Benchに対して、またアクション ポリシーにおいては RoboLab と RoboArena に対して、そして視覚理解においては VANTAGE-Bench と TAR に対し、リーダーボードの中で 1 位にランクされています。
Cosmos 3 のラインナップは、フィジカル AI 開発のさまざまな段階に対応するオプションを開発者に提供します。
-
Cosmos 3 Super は、最高レベルの物理精度と生成品質が求められるロボティクスおよび自動運転向けモデルのポストトレーニングに最適です。
-
Cosmos 3 Nano は、わずか数分の 1 秒で高品質な動画生成とアクション リーズニングを実現します。
-
Cosmos 3 Edge は、近日公開予定であり、エッジにおけるリアルタイム推論に最適です。
Cosmos Coalition がオープンな世界基盤モデルの開発を加速
Cosmos Coalition は、世界基盤モデルの開発者、AI 開発者、そしてフィジカル AI のリーダーによるグローバルなエコシステム構想であり、その目的は、あらゆる業界でオープンな世界モデルを推進することにあります。メンバーは、Cosmos 3 の技術、トレーニング ツール、大規模トレーニング用の NVIDIA DGX™ Cloud インフラを使用しながら、モデル、研究、評価手法を提供できます。
設立メンバーには、Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI が含まれます。Coalition は、オープンに構築し、共有エコシステム全体で貢献することで、フィジカル AI のより迅速なイノベーション、より広範な相互運用性、そしてより急速な進歩を実現することを目指しています。
開発者は Cosmos を活用
Cosmos プラットフォームは、NVIDIA のフィジカル AI スタックを強化し、業界を問わず学習と評価のためのワークフローを迅速化します。 このプラットフォームには、ロボティクス、物理学、人間の動作、自動運転、倉庫安全、空間リーズニングのための新しいデータセットに加え、ニューラル シーン再構成、欠陥画像生成、動画拡張のための新しいフィジカル AI エージェント スキルが含まれています。
フィジカル AI の 開発者は、業界を問わず Cosmos プラットフォームを活用して開発しています。
ロボティクス領域では Agile Robots、Doosan Robotics、LG Electronics、Samsung および Skild AI、自動運転領域では LiAuto 、産業 AI やスマート空間向けアプリケーションを強化するビジョン AI エージェントの分野では Centific、Fogsphere、Linker Vision、Milestone Systems および Yuan などの企業が Cosmos プラットフォームを活用しています。
利用方法
Cosmos 3 Super と Cosmos 3 Nano は現在利用可能であり、リアルタイム推論向けの Cosmos 3 Edge もまもなく登場します。開発者は、build.nvidia.com 上で Cosmos 3 を試すことが可能であり、Hugging Face からオープン モデルをダウンロードしたり、Hugging Face Diffusers と GitHub のリソースを使用してモデルをカスタマイズしたり合成データを生成したり、NVIDIA NIM™ マイクロサービスとしてモデルを展開できます。
モデルビルダーとソフトウェア プロバイダーは、リーズニング サービスや Baseten、CoreWeave、Microsoft Azure、Nebius、Deep Infra、Classmethod などのクラウド インフラ パートナーを通じて、GitHub 上のフィジカル AI エージェント スキルを使用して、主要なリーズニングと合成データ生成ワークロード向けに Cosmos にアクセスし、カスタマイズおよび導入を迅速化できます。
ジェンスン フアンの基調講演をこちらからご覧ください。NVIDIA GTC Taipei におけるフィジカル AI のセッションこちらからご覧ください。
※本発表資料は台湾時間 2026 年 6 月 1 日に発表されたプレスリリースの抄訳です。
NVIDIA について
NVIDIA (NASDAQ: NVDA) は AI とアクセラレーテッド コンピューティングの世界的なリーダーです。
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
