NVIDIA、AI ファクトリー向けに広く採用されている推論オペレーティング システムである Dynamo を本番稼働向けに提供開始

ニュース概要:
-
NVIDIA Dynamo 1.0 は、大規模な推論向けの本番環境対応のオープン ソース基盤を提供
-
Dynamo および NVIDIA TensorRT-LLM の最適化は、LangChain、llm-d、LMCache、SGLang、vLLM などのオープン ソース フレームワークにネイティブに統合され、推論パフォーマンスを向上
-
Dynamo は、無料のオープン ソース ソフトウェアによって、NVIDIA Blackwell GPU の推論パフォーマンスを最大 7 倍向上させ、数百万の GPU におけるトークン コストを削減し、収益機会を増大
-
NVIDIA 推論プラットフォームは、クラウド サービス プロバイダーである Amazon Web Services (AWS)、Microsoft Azure、Google Cloud、Oracle Cloud Infrastructure (OCI) に加え、NVIDIA クラウド パートナー である Alibaba Cloud、CoreWeave、Together AI、Nebius、AI ネイティブ企業である Cursor、Perplexity、推論エンドポイント プロバイダーである Baseten、Deep Infra、Fireworks、そしてグローバル企業である、ByteDance、Meituan、PayPal、Pinterest によって採用および統合
カリフォルニア州サンノゼ—GTC—2026 年 3 月 16 日 — NVIDIA は本日、大規模な生成推論およびエージェント型推論向けのオープン ソース ソフトウェアである NVIDIA Dynamo 1.0 を発表しました。Dynamo 1.0 を NVIDIA Blackwell プラットフォームと組み合わせることで、クラウド プロバイダー、AI イノベーター、グローバル企業は比類ない規模、効率、スピードで高性能な AI 推論を実現できます。
業界全体でエージェント型 AI システムが本番環境に移行するにつれ、データセンター内での推論のスケーリングは、さまざまなサイズや形式、そしてパフォーマンス目標を持つリクエストが予測不可能な形で届くという、リソース オーケストレーションの複雑な課題となっています。
コンピューターのオペレーティング システムがハードウェアとアプリケーションを調整するように、Dynamo 1.0 は、AI ファクトリーの分散型「オペレーティング システム」として機能し、クラスター全体で GPU とメモリ リソースをシームレスに調整し、複雑な AI ワークロードを最大限の効率で駆動します。最近の業界ベンチマークにおいて、Dynamo は 無料のオープン ソース ソフトウェアによって、NVIDIA Blackwell GPUの推論パフォーマンスを最大 7 倍向上させ、数百万個の GPU におけるトークン コストを削減し、収益機会を増大させました。
NVIDIA の創業者/CEO である ジェンスン フアン (Jensen Huang) は次のように述べています。「推論はあらゆるクエリ、あらゆるエージェント、あらゆるアプリケーションを支えるインテリジェンスのエンジンです。NVIDIA Dynamo により、AI ファクトリー向けの史上初の『オペレーティング システム』が構築されました。エコシステム全体での急速な導入は、エージェント型 AI の次の波が到来したことを示しており、NVIDIA がグローバル規模でそれを推進しています。」
Dynamo 1.0 は、より高度な「トラフィック制御」と GPU と低コストのストレージ間のデータ移動機能を追加することで、GPU 間で推論作業を分散し、無駄な作業を減らし、メモリ制限を緩和します。エージェント型 AI や長いプロンプトの場合、以前のステップからの最も関連性の高い「短期記憶」をすでに備えた GPU にリクエストをルーティングし、必要のない場合はそのメモリをオフロードできます。
NVIDIA 推論プラットフォームが勢いを増す
NVIDIA は、Dynamo および NVIDIA TensorRT™-LLM ライブラリの最適化を LangChain、llm-d、 LMCache、SGLang、vLLM などの主要なフレームワークに統合し、オープン ソース エコシステムを加速しています。よりスマートなメモリ管理を実現する KVBM、GPU 間での高速なデータ転送を実現する NVIDIA NIXL、拡張を簡素化する NVIDIA Grove などの中核となる Dynamo の構成要素は、スタンドアロン モジュールとしても利用できます。NVIDIA はまた、オープン ソース フレームワークにネイティブに統合できるように、FlashInfer プロジェクトに TensorRT-LLM CUDA® カーネルを提供しています。
NVIDIA 推論プラットフォームは、以下を含む AI エコシステム全体でサポートされています。
-
クラウド サービス プロバイダー: Amazon Web Services (AWS)、Microsoft Azure、Google Cloud、OCI
-
NVIDIA クラウド パートナー: Alibaba Cloud、CoreWeave、Crusoe、DigitalOcean、Gcore、GMI Cloud、Lightning AI、Nebius、Nscale、Together AI、Vultr
-
AI ネイティブ企業: Cursor、Hebbia、Perplexity
-
推論エンドポイント プロバイダー: Baseten、Deep Infra、Fireworks
-
グローバル企業: Amazon、AstraZeneca、BlackRock、ByteDance、Coupang、Instacart、Meituan、PayPal、Pinterest、Shopee、ソフトバンク株式会社
CoreWeave の製品およびエンジニアリング担当バイス プレジデントである Chen Goldberg 氏は次のように述べています。「AI が実験的なパイロットから継続的かつ大規模な本番環境に移行するにつれ、基盤となるインフラは、それがサポートするモデルと同じくらい動的でなければなりません。NVIDIA Dynamo のサポートにより、複雑な AI エージェントを展開するための、よりシームレスで回復力のある環境を提供できるようになりました。この基盤は、業界で最も野心的なエージェント型ワークロードをグローバルな本番環境に移行するために必要な耐久性と高性能なオーケストレーションを提供します」
Nebius の最高技術責任者である Danila Shtan 氏は次のように述べています。「大規模で信頼性の高い AI 推論を実現するために重要なのは、高性能な GPU だけではありません。そのパフォーマンスを実際の顧客成果に変えるソフトウェアこそが重要なのです。Dynamo から TensorRT-LLM までの NVIDIA ソフトウェア スタックが、高度な最適化、予測可能なパフォーマンス、展開までの時間短縮を実現し、AI の本番稼働への移行をよりシンプルで高性能なパスを顧客に提供できることを評価しています」
Pinterest の最高技術責任者である Matt Madrigal 氏は次のように述べています。「数億人のユーザーに直感的なマルチモーダル AI 体験を提供するには、グローバル規模でのリアルタイム インテリジェンスが必要です。オープン ソースの主要な採用企業として、私たちはスケーラブルな AI テクノロジの構築に取り組んでいます。NVIDIA Dynamo が私たちの展開を最適化することで、高性能な AI インフラを活用した、シームレスでパーソナライズされた体験の提供を拡大しています」
Together AI の共同創業者兼 CEO である Vipul Ved Prakash 氏は次のように述べています。「AI ネイティブは、アプリケーションとともに信頼性が高く、かつ効率的に拡張できる推論を必要としています。NVIDIA Dynamo 1.0 と Together AI の最先端の推論研究を組み合わせることで、大規模な本番環境ワークロード向けの高速でコスト効率の高い推論を実現する高性能なスタックを提供できます」
Dynamo 1.0 は、本日より世界中の開発者に提供されます。詳細や展開方法については、ブログまたはこちらのウェブページをご覧ください。
※本発表資料は米国時間 2026 年 3 月 16 日に発表されたプレスリリースの抄訳です。
NVIDIA について
NVIDIA (NASDAQ: NVDA) は、AI とアクセラレーテッド コンピューティングの世界的リーダーです。
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
