GMOインターネット、「NVIDIA B300 GPU」搭載環境の性能を実証

「GMO GPUクラウド」ベアメタルサービス搭載GPUの実力を検証

GMOインターネットグループ

2026年1月23日 14時00分

　GMOインターネットグループの、GMOインターネット株式会社（代表取締役社長執行役員：伊藤正　以下、GMOインターネット）は「GMO GPUクラウド」において、2024年11月より提供している「NVIDIA H200 Tensor コアGPU」（以下、H200 GPU）、および2025年12月にベアメタル構成にて国内最速クラスで提供開始した「NVIDIA HGX B300 AI インフラストラクチャ」（以下、B300 GPU）を導入したGPUクラウドサービスの、性能特性を検証しました。生成AI開発から運用までの実用性と演算性能の両面を評価するため、以下３つのベンチマーク（性能検証）を実施した結果を公開いたします。

【実施したベンチマークの概要】

１．大規模言語モデル（LLM）の学習ベンチマーク：「学習効率」と「演算速度」を評価する指標

　LLMを実際に学習（ファインチューニング）させ、目標の品質（損失）に到達するまでの学習完了時間を測るベンチマーク

２．vLLM bench throughputによる推論ベンチマーク：単位時間あたりに生成可能な「トークン量（処理スループット）」を評価する指標

　LLM推論のバッチ処理をできるだけ高速に実行し、1秒あたりに生成できる出力トークン数（output tokens/s）など最大スループットを測る推論性能ベンチマーク

３．HPL Benchmark によるベンチマーク：高精度な数値計算の処理能力を評価する指標　

　密行列の連立一次方程式（Ax=b）を解く処理を通じて、浮動小数点演算性能（GFLOPS）を測定するHPC系の基礎計算性能ベンチマーク　科学技術計算における複雑で精密な数値計算の性能を測定

　これらのベンチマークにより、生成AIの開発から運用までの実用性能と、演算性能の両面から「B300 GPU」、「H200 GPU」の各々の特性を検証し、ワークロードに応じた最適なGPUを選択できる参考情報を提供します。

　今回の検証では生成AIワークロードにおいて、「B300 GPU」は「H200 GPU」と比較して学習で約2倍、推論では約2.5倍の処理性能を発揮することが確認されました。一方、スーパーコンピュータの性能評価に用いられるHPL Benchmark では、「B300 GPU」は「H200 GPU」の2.1%（約47分の1）の性能に留まりました。

　これは「B300 GPU」が生成AIワークロードに特化した高い性能を有している一方で、科学技術計算など計算結果の正確性を求めるユースケースにおいては依然として「H200 GPU」が適している可能性を示唆しています。

【ベンチマークテストの概要と結果】

1. 大規模言語モデル（LLM）の学習ベンチマーク

　本ベンチマークでは、MLPerf ® Training v5.1(※1) が規定している Closed Division のルールに従い、Llama2 70B モデルを用いて「B300 GPU」および「H200 GPU」上での LoRA ファインチューニング(※2)にかかる学習時間を測定しました(※3)。

評価指標にはクロスエントロピー損失(※4)を用い、目標値（0.925）に達するまでの時間を測定しています。

　このベンチマークにおいて、「H200 GPU」搭載機材では 20.80 分(Unverified)かかっていた学習時間が「B300 GPU」搭載機材では 10.31 分(Unverified)で完了し、約2倍の速度で処理が完了しました。

　さらに、NVIDIA Blackwell アーキテクチャより新たに対応したFP4(※5)を用いた測定ではFP8 hybrid(※6) を使用した学習よりもさらに短い時間で処理が完了しており、FP4の高い演算性能を活かすことにより学習でもその恩恵を受けることができる可能性を示しています【表1】。

【表1：大規模言語モデル（LLM）ベンチマーク時間比較】

構成	GPU数	精度	所要時間（分）	削減時間（分）	H200比削減割合
HGX H200 1台	8	FP8 hybrid	20.80(Unverified)	－	－
HGX B300 1台	8	FP8 hybrid	10.31(Unverified)	10.49	51%
HGX B300 1台	8	FP4(NVFP4)	9.58(Unverified)	11.22	54%

構成

GPU数

精度

所要時間

（分）

削減

時間

（分）

H200比

削減

割合

HGX H200 1台

FP8 hybrid

20.80(Unverified)

－

HGX B300 1台

FP8 hybrid

10.31(Unverified)

10.49

51%

HGX B300 1台

FP4(NVFP4)

9.58(Unverified)

11.22

54%

[お詫びと訂正]2026年1月23日（金）18:00
初出時、表1の「構成」に誤記がありました。訂正してお詫び申し上げます。
誤：HGX B200 1台
正：HGX B300 1台

（※１）MLPerf ®とは、MLCommons Associationが管理する機械学習システムの性能測定における国際的なベンチマーク標準。

（※2）LoRAファインチューニングとは、大規模言語モデルを効率的に学習させる手法。

（※3）本稿で記載している結果は非公式(Unverified)であり、MLCommons Association に提出し、審査・承認を受けた公式結果ではありません。

（※4）クロスエントロピーとは、AIモデルの予測精度を測定する指標。モデルの予測と正解データの差異を数値化したもので、値が小さいほど学習が進み、高精度なモデルであることを示す。

（※5）FP4 (4ビット浮動小数点演算) とは、データを4ビット(従来の半分)で表現する演算方式。メモリ使用量を削減し処理速度を向上させることで、AIモデルの学習・推論を高速化します。NVIDIA Blackwellアーキテクチャから新たに対応した技術。

（※6）FP8 hybridとは、8ビット浮動小数点演算と高精度演算を組み合わせた混合精度学習手法。

2. vLLM bench throughput(※7)による推論ベンチマーク

　本ベンチマークでは、vLLMのOffline Throughput Benchmark(※8)を用い、Llama-3.1-405B-Instructモデルの推論スループットを測定しました。LLM推論のバッチ処理における「H200 GPU」および「B300 GPU」が1秒あたりに生成できる出力トークン数（output tokens/s）の最大処理能力を比較しています(※9)。評価は1秒あたりの出力トークン数（output tokens/s）を指標としています。このベンチマークにおいて、「H200 GPU」（FP8）構成では798 tokens/sであったスループットが、「B300 GPU」（FP8）構成では、約170%（約1.7倍）の1330 tokens/sまで向上しました。さらに、FP4（NVFP4）を適用した構成では1938 tokens/sを達成し、「H200 GPU」構成に対し約250%（約2.5倍）の性能向上を確認しました。この結果から、FP4の活用が大規模モデルの推論パフォーマンスを向上させるための、有力な手段の一つであることがうかがえます【表2】。

【表2：大規模言語モデル（LLM）推論スループット比較】

構成	GPU 数	精度	Throughput (output tokens/s)	H200性能比
HGX H200 1台	8	FP8	798	－
HGX B300 1台	8	FP8	1330	約170% （約1.7倍）
HGX B300 1台	8	FP4(NVFP4)	1938	約250% （約2.5倍）

構成

GPU

数

精度

Throughput

(output tokens/s)

H200性能比

HGX H200 1台

FP8

798

－

HGX B300 1台

FP8

1330

約170%

（約1.7倍）

HGX B300 1台

FP4(NVFP4)

1938

約250%

（約2.5倍）

（※7）vLLM bench throughput 大規模言語モデル推論エンジン「vLLM」のベンチマークツール。1秒あたりに生成できるトークン数（スループット）を測定することで、本番環境でのAIサービスの応答性能や処理能力を評価。

（※8）Offline Throughput Benchmarkとは、vLLM bench throughputで実行するベンチマークモードで、バッチ処理における最大スループットを測定するモード。

（※9）計測条件：モデル：Llama-3.1-405B-Instruct, プロンプト数：2048, 入力長：2048 tokens, 出力長：256 tokens。VRAM容量に応じてシーケンス数・バッチあたりの最大トークン数は各構成で調整。

3. HPL Benchmark によるベンチマーク

　本ベンチマークでは HPL Benchmark(※10)を用いて「B300 GPU」搭載機材および「H200 GPU」搭載機材の LINPACK 性能(※11)を比較しました。HPL Benchmark では浮動小数点演算性能を測定し、1秒間に実行できる演算回数を GFLOPS (10億回の浮動小数点演算/秒)という単位で算出し、ベンチマークのスコアとします。この値が高いほど高性能であることを示します。

　その結果、「B300 GPU」搭載機材の性能は「H200 GPU」搭載機材の2.1%（約47分の1）となりました。これは「B300 GPU」がAI ワークロードに最適化された設計であることが要因であると考えられます。科学計算など高精度な演算を必要とする場面では「H200 GPU」が依然として有用であると考えられます。【表3】。

　この結果から、「B300 GPU」は低精度演算(FP4/FP8)を用いる生成AIワークロードに特化した設計である一方、高精度演算(FP64)が求められる科学技術計算においては「H200 GPU」が適していることがうかがえます。

　これは「B300 GPU」が生成AIに最適な低精度演算(FP4/FP8)に特化している一方、HPL Benchmarkで測定される高精度演算(FP64)は「H200 GPU」の方が優れているためです。したがって、科学技術計算など高精度な数値演算を必要とする場面では「H200 GPU」が有用であると考えられます。

【表3：HPL Benchmark 浮動小数点演算性能比較】

構成	GPU 数	精度	GFLOPS	H200性能比
HGX H200 1台	8	FP64 Tensor Core	3.924x10e5	－
HGX B300 1台	8	FP64 Tensor Core	8.276x10e3	2.1%（約47分の1）

構成

GPU

数

精度

GFLOPS

H200性能比

HGX H200 1台

FP64 Tensor Core

3.924x10e5

－

HGX B300 1台

FP64 Tensor Core

8.276x10e3

2.1%（約47分の1）

■実施環境

	H200	B300
サーバモデル	DELL PowerEdge XE9680	DELL PowerEdge XE9780
CPU	第 4 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリー	第 6 世代インテル® Xeon® スケーラブル・プロセッサー・ファミリー
ディスク構成	NVMe 7.68TB x4	NVMe 3.5TB x8
GPU	NVIDIA HGX H200	NVIDIA HGX B300

（※10）HPL Benchmarkはスーパーコンピュータの性能評価に用いられる国際標準ベンチマーク。

（※11）LINPACK性能とは、複雑な数式を正確に解く計算能力。わずかな誤差も許されない科学技術計算（気象予測、創薬研究等）での性能を示す指標。スーパーコンピュータの性能評価でも使用されます。

【GMOインターネットインフラ・運用本部プロジェクト統括チーム

エグゼクティブリード佐藤嘉昌コメント】

　今回のベンチマーク結果は、当社が用意した環境・条件下での検証結果となりますが、「B300 GPU」と「H200 GPU」の性能特性の違いを示す一つのデータとしてご参考いただけると考えています。「GMO GPUクラウド」は、お客様の開発目的や利用用途に寄り添い、より効率的に計算資源を活用いただけるよう、技術協力を継続的に行い、AI開発環境における技術向上に寄り添ってまいります。このような検証情報の提供を通じて、お客様のGPUクラウドサービスの選択をサポートし、日本のAI産業の発展に貢献してまいります。

【今後の展開】

　GMOインターネットは、「GMO GPUクラウド」を通じて、生成AI分野に取り組む企業や研究機関に向け、ワークロード特性に応じて最適なGPUクラウドサービスを選択できる柔軟な計算環境を提供していきます。

　今回の性能検証結果を踏まえ、生成AIの学習・推論といったAIワークロードに強みを持つ「B300 GPU」と、高精度な数値計算を必要とする用途に適した「H200 GPU」を、お客様のユースケースに応じて柔軟に組み合わせてご提案いたします。単なるGPUリソースの提供にとどまらず、お客様の開発目的や利用用途に応じた環境のカスタマイズから運用最適化まで、技術面・コスト面の両面で伴走支援を提供いたします。これにより、開発期間の短縮とコスト低減に貢献し、国内AI産業の発展を促進します。

【「GMO GPUクラウド」について】（URL：https://gpucloud.gmo/）

　「GMO GPUクラウド」は、NVIDIA H200 Tensor コアGPUを搭載し、国内初となる高速ネットワーク NVIDIA Spectrum-X と高速ストレージを実装しています。

　2024年11月に発表された世界のスーパーコンピュータ性能ランキング「TOP500」（※12）においては、世界第37位・国内第6位にランクインし、商用クラウドサービスとしては国内最速クラスの計算基盤を提供しています。さらに、2025年6月には電力効率を競う世界ランキング「Green500」（※13）にて世界第34位・国内第1位を獲得し、高性能と省電力性の両立が国際的に評価されました。加えて、2025年12月にはNVIDIAの次世代GPU「NVIDIA Blackwell Ultra GPU」を搭載した「NVIDIA HGX B300」のクラウドサービス提供を開始しました。(※14)

(※12)「GMO GPUクラウド」世界のスーパーコンピュータランキングTOP500で37位にランクイン（2024年11月時点）

(※13)「GMO GPUクラウド」電力効率を競う世界ランキング「Green500」で世界34位、国内１位を獲得

(※14)「GMO GPUクラウド」「NVIDIA HGX B300」のクラウドサービスを国内最速クラスで提供開始

■過去参考リリース

2024年4月19日	NVIDIA H200 Tensor コア GPU を採用した生成AI向けのGPUクラウドサービスを国内最速提供へ
2024年6月11日	生成AI向けGPUクラウドサービスにNVIDIA Spectrum-Xを国内クラウド事業者として初採用
2024年8月29日	「GPUクラウド利用実態調査」～国内利用率わずか5.4%、約9割が海外サービスを利用～
2024年9月26日	「NVIDIA H200 GPU」搭載環境の性能を実証
2024年11月13日	「NVIDIA AI Summit」でAI・ロボティクス時代のインフラ基盤とセキュリティを紹介
2024年11月19日	「GMO GPUクラウド」、世界のスーパーコンピュータランキングTOP500に初ランクイン
2024年11月22日	スパコンランキングTOP500ランクインの「GMO GPUクラウド」を提供開始
2025年2月21日	NVIDIAテクノロジを搭載した高性能GPUクラウドサービス「GMO GPUクラウド」に「マルチインスタンスGPU（MIG）機能」を追加
2025年5月7日	AIロボット協会（AIRoA）の次世代ロボット開発基盤として「GMO GPUクラウド」の正式採用が決定
2025年5月12日	「GMO GPUクラウド」がチューリングの自動運転向けマルチモーダル生成AI開発基盤に採用
2025年5月14日	「GMO GPUクラウド」の追加投資決定
2025年6月11日	「GMO GPUクラウド」電力効率を競う世界ランキング「Green500」で世界34位、国内１位を獲得
2025年7月1日	GMOインターネットとマクニカ、NVIDIAで高速化された「GMO GPUクラウド」における生成AI開発と活用支援にて協業開始
2025年8月4日	GMO GPUクラウド「NVIDIA Blackwell Ultra GPU」を採用
2025年10月2日	『GMO GPUクラウド』と低遅延回線『IOWN APN』を活用した次世代分散型AIインフラの技術実証を開始
2025年11月7日	GPUクラウドサービス「GMO GPUクラウド」Grafanaを活用したモニタリングダッシュボード機能を追加
2025年11月10日	GPUクラウドサービス「GMO GPUクラウド」プライベートコンテナレジストリ機能を提供開始
2025年11月18日	GPUクラウド国際評価レポート「ClusterMAX™2.0」で「Silver」を獲得
2025年11月28日	GMOインターネットとCTC、GPUクラウド事業における戦略的販売パートナー契約を締結
2025年12月12日	GPUクラウドサービス「GMO GPUクラウド」 Open OnDemand によるWebポータル機能を追加
2025年12月16日	GMO GPUクラウド「NVIDIA HGX B300」のクラウドサービスを国内最速クラスで提供開始