NABLAS株式会社、日本語・英語を高精度に理解するバイリンガルな大規模視覚言語モデル「NABLA-VL」を一般公開
複数ベンチマークで国内トップクラスの性能を達成。H200 GPU 24台 × トークン削減手法により学習・推論時間も短縮。

AI総合研究所として活動するNABLAS株式会社 (本社 : 東京都文京区本郷、 代表取締役 所長 : 中山 浩太郎、 以下「当社」)は、自社で開発した150億パラメーター規模の大規模視覚言語モデル(Vision-Language Model, VLM)「NABLA-VL」を公開したことをお知らせします。
本モデルは、経済産業省とNEDOが実施する、国内の生成AI開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」で開発されたものです。「NABLA-VL」は、テキスト・画像・動画を理解する能力を備え、日本語、英語においてバランスの取れたバイリンガル対応且つ高性能マルチモーダルAIとして研究・産業の双方での利活用を目指しています。
■モデルの特徴
-
トークン削減による学習・推論の高速化
トークン圧縮手法(画像から必要な情報だけを抽出し、処理すべきデータ量を削減する方法)を適用し、視覚トークンを総数の87.5%分を除去することで、学習時間を約50%短縮(約2倍高速化)、推論時間も23%短縮(約1.3倍高速化)しました。これにより、モデル運用にかかるコストと開発時間の大幅な削減を実現しています。 -
国内トップクラスの性能
マルチモーダルAIを評価するための複数の日英ベンチマークにおいて、他の国産モデルを上回る性能を達成しました(2025年5月現在)。これは、精度と汎用性の両方において信頼性が高い基盤モデルであることを示しています。
-
オープンソースとして公開し再現や応用が容易
モデル本体と学習/推論コードを Apache 2.0 ライセンスで公開しており、研究者・開発者が容易に利用できるよう設計されています。
■モデル・コード公開先
本モデルのソースコードは Hugging Faceで公開しており、技術的な内容の詳細については当社の技術ブログにて解説・公開しています。
モデル:https://huggingface.co/nablasinc/NABLA-VL
コード:https://github.com/nablas-inc/NABLA-VL
技術ブログ:https://note.com/nablas/n/n86298d28cdea
企業Webサイト:https://www.nablas.com/
■主なベンチマーク結果(2025年5月測定)
特に英語領域においては、MMMU、LLaVA-Bench (In-the-Wild)といった主要ベンチマークで国内モデル中トップのスコアを達成。さらにJDocQAやMulIm-VQAなどでも国内トップレベルの性能を示しています。また、OpenAIのgpt-4o-2024-11-20と比較しても、いくつかのベンチマークで上回るスコアを記録しています。
参照したリーダーボードはこちら(2025年5月22日時点)
https://llm-jp.github.io/llm-jp-eval-mm/

ベンチマーク |
スコア |
備考 |
---|---|---|
JMMMU※1 |
45.68 |
MMMU の日本版 |
JDocQA |
29.16 |
図表を含む文書QA |
MECHA |
59.63 |
日本の土地やもの、行事などに関するベンチマーク |
MMMU |
51.11 |
多分野にわたる、学部生レベルの知識が求められる選択式QA |
JVB-ItW(LLM) |
4.06 |
LLaVA-Bench-In-the-Wild の日本版 |
JVB-ItW(ROUGE-L) |
46.52 |
- |
VG-VQA(LLM) |
3.97 |
Visual Genome データセットの画像を使って作成されたベンチマーク |
VG-VQA(ROUGE-L) |
15.74 |
- |
LLAVA(LLM) |
3.93 |
多様な画像を含むベンチマーク |
LLAVA(ROUGE-L) |
27.19 |
- |
MulIm-VQA(LLM) |
4.27 |
複数画像のベンチマーク |
MulIm-VQA(ROUGE-L) |
55.75 |
- |
Heron(LLM) |
67.52 |
「日本っぽい」アニメや観光地の画像に関するQA |
JIC |
63.16 |
施設や食べ物などの分野に関する分類タスク |
※スコアはllm-jp-eval-mmを用いて評価
※1:日本語における大規模マルチモーダルモデルを評価するための先駆的なベンチマーク。
当社は、今後も基盤モデルの研究開発を推進し、視覚と言語の融合領域における社会実装と技術貢献を目指してまいります。また、引き続き、研究開発コミュニティと産業界双方への技術貢献を続けていくと同時に、モデルの軽量化やリアルタイム推論、高解像度画像理解などの研究にも取り組んで参ります。
■お問い合わせ
大規模視覚言語モデル「NABLA-VL」に関するお問い合わせは以下フォームからお気軽にご相談ください。
◾️NABLAS株式会社について
当社は東大発のベンチャーであり、AI人材教育・育成機関、そして最先端のAI技術、特にDeep Learning技術を活用したソリューションを提供するAI総合研究所です。AI人材育成事業では、東京大学で開発したAI人材教育コンテンツと当社でアップデートしたコンテンツを学習環境iLect Systemと共に、AI人材育成サービスとして提供しています。AIコンサル・R&D事業では、AI技術の導入・研究・開発について技術面でのコンサルティング業務を展開し、クライアントの状況に応じてAI技術の導入・開発など技術面でのサービス提供を行っています。AI技術の社会実装を様々な形で実現し、より良い未来を創造するための技術やサービスを探索・創造し続ける存在として、「Discover the gradients, Towards the future」のミッションのもと次世代を支える技術やサービスの開発に取りんでいきます。
◾️会社概要
社名:NABLAS株式会社
代表者:代表取締役 所長 中山 浩太郎
本社:東京都文京区本郷6-17-9 本郷綱ビル1F
設立:2017年3月
事業内容:AI人材育成事業/コンサルティング/研究開発
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像