Datadog、AIプロジェクトの規模拡大に伴うコスト最適化とパフォーマンス向上を支援する「GPU Monitoring」を発表
キャパシティプランニングと迅速なトラブルシューティング、コストのかかる障害の防止、無駄な支出の回避を実現

ニューヨーク – AIを活用したオブザーバビリティおよびセキュリティプラットフォームのリーディングカンパニーである Datadog, Inc.(NASDAQ: DDOG) は本日、GPU Monitoring が全世界の顧客向けに提供開始されたことを発表しました。本製品は、AIコストの拡大に対応するためにスケーラブルかつ効果的な管理手法を模索する企業にとって、現在最も広く見られる課題の一つに対応するものです。
DatadogのChief Product Officerであるヤンビン・リーは以下のように述べています。
「GPUインスタンスはコンピュートコストの14%を占めており、企業がスケーラブルかつ効率的にAIファーストの技術を構築しようとする中で、大きな課題となっています。多くの企業はコストの増加を認識しているものの、GPUコストを事業部門ごとに配賦することができず、ワークロードのコンテキストを把握したり、改善のための明確な次のステップを特定したりすることができていません。その結果、適切な予算策定や計画が非常に困難になっています。」
GPU Monitoringの提供開始は、単一のソリューションとして初めてAIスタック全体にわたる統合的な可視性を提供するものです。これにより、GPUリソース群(フリート)の健全性、コスト、パフォーマンスを、それらを利用する部門・メンバーと直接結び付けた単一の画面で確認でき、パフォーマンスが低下しているワークロードの迅速なトラブルシューティングやコスト削減を実現します。
リーはさらに以下のように述べています。
「キャパシティの誤った配分やトレーニングおよび推論ワークロードの停滞、コストの増加といった状況が発生すると、AIコストの適切な管理は経営レベルの重要課題となります。GPUコストの管理が解決すべき大きな問題であることは誰もが認識していますが、多くの企業はいまだ試行錯誤の段階にあり、スタック全体で何が起きているのかを単一の画面で把握することは非常に困難です。GPU Monitoringは、これまでにない効率性と信頼性でこの課題を解決します。」
現在利用されているGPU関連ツールは、デバイスの健全性に関する概要レベルのメトリクスは提供するものの、部門横断的なリソース競合の問題を明らかにしたり、トレーニングや推論ワークロードが失敗する理由を説明したり、どのデバイスがアイドル状態にあるのか、あるいは非効率に使用されているのかを可視化したりすることはできません。この可視性の欠如により、調査には時間がかかり、開発部門では安全策として過剰なリソース確保を行う傾向があり、結果として無駄なコストが発生しています。
GPU Monitoringは、GPUリソース群のテレメトリをそれらのリソースを消費するワークロードと直接結び付けることで、この作業を効率化します。また、プラットフォームエンジニアリングチームと機械学習チームに共通の画面を提供し、共同で調査を行えるようにすることで、以下を可能にします。
-
過剰なコストを抑えつつAIをスケール:GPUリソース群の使用パターンに基づく可視性と予測、および新規GPUの購入か既存リソースの解放かを判断するための具体的な判断指針により、プラットフォームチームは高額な設備投資や長期の調達プロセスを回避できます。機械学習チームはより迅速に必要なキャパシティを確保でき、経営層は予測可能な支出のもとでより高いROIを得ることができます。
-
AIの実装・展開の加速:停滞しているワークロードを、それを支えるGPU、Pod、プロセスに直接関連付けることで、チームは数時間ではなく数分でパフォーマンスのボトルネックを特定でき、エンジニアはAIプロジェクトの提供に集中できます。
-
コストのかかる障害の回避:不健全なGPUを事前に特定し、クラスタ全体に障害が波及してトレーニングや推論が遅延する前に対処できます。
-
GPUコストのROI最大化:チームはGPUの利用状況とコストに対する責任を持ち、どこで過剰確保や未活用が発生しているかを容易に特定できます。これにより、リソースの回収と再配分が可能となり、無駄な支出を削減できます。
Hyperbolicのプロダクト責任者であるカイ・ファン氏は次のように述べています。
「Datadog GPU Monitoringのおかげで、マルチテナントのGPUインフラの状況を容易に把握できるようになりました。追加の設定なしで、インスタンス単位・デバイス単位でのコア使用率、メモリ、消費電力、温度などをすぐに可視化できます。ダッシュボードは初期状態から充実しており、カスタマイズも容易で、顧客ごとに分離された画面も数分で構築できます。さらにLLM Observabilityと組み合わせることで、すべてが一体化されます。モデルのレイテンシの急増から、その原因となるGPUメトリクスまでをツールを切り替えることなく追跡できます。単一のプラットフォームでAIスタック全体のオブザーバビリティを実現することで、当社のチームも顧客も自信を持って迅速に対応できるようになります。」
GPU Monitoringは現在一般提供中です。
詳細については、以下ブログ(英語)をご覧ください:
https://www.datadoghq.com/blog/datadog-gpu-monitoring/
Datadogについて
Datadogは、クラウドアプリケーション向けにAIを活用したオブザーバビリティおよびセキュリティプラットフォームのリーディングカンパニーです。DatadogのSaaSプラットフォームは、インフラストラクチャ監視、アプリケーションパフォーマンス監視、ログ管理、ユーザーエクスペリエンス監視、クラウドセキュリティなど、多数の機能を統合および自動化し、お客様のテクノロジースタック全体にわたる統合されたリアルタイムの可視性とセキュリティを提供します。Datadogは、あらゆる規模および業界の組織に利用され、デジタルトランスフォーメーションやクラウド移行の推進、開発・運用・セキュリティ・ビジネスチーム間のコラボレーション促進、アプリケーションの市場投入までの時間短縮、問題解決までの時間短縮、アプリケーションおよびインフラの保護、ユーザー行動の理解、主要ビジネス指標の把握を支援しています。
将来の見通しに関する記述
本プレスリリースには、新製品および新機能の利点に関する記述を含め、米国1933年証券法(Securities Act of 1933)第27A条および米国1934年証券取引所法(Securities Exchange Act of 1934)第21E条に規定される「将来予想に関する記述」が含まれています。これらの将来予想に関する記述は、当社の新製品および新機能の利点に関する記述が含まれますが、これらに限定するものではありません。実際の結果は、将来見通しに関する記述とは異なる可能性があり、「リスクファクター」の見出しの下に詳述されているリスクをはじめ、2026年2月18日に米国証券取引委員会に提出したForm 10-Qの四半期報告書を含む米国証券取引委員会への提出書類および報告書、ならびに当社による今後の提出書類および報告書に記載されている、当社が制御できない様々な仮定、不確実性、リスクおよび要因の影響を受けます。法律で義務付けられている場合を除き、当社は、新しい情報、将来の事象、期待の変化などに応じて、本リリースに含まれる将来の見通しに関する記述を更新する義務または責務を負いません。
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
