APTO、日本語LLMの安全性向上を目的とした学習データセットおよび安全性チューニングモデルを公開

約18,000件の日本語安全性データを活用し、安全性向上と対話品質維持を両立したLLMモデルをHugging Faceで公開いたしました。

APTO

2026年5月22日 10時00分

株式会社APTO（本社：東京都渋谷区、代表取締役：高品良　以下、APTO）は、日本語環境における大規模言語モデル（LLM）の安全性向上を目的とした、安全性チューニング済みモデルおよび学習用データセットを公開したことをお知らせいたします。

近年、生成AIの活用が急速に広がる一方、有害出力への対応や倫理的な応答の実現は依然として重要な課題となっています。特に日本語LLM領域では、文化的背景や日本語特有の文脈を踏まえた安全性データの不足が課題となっていました。

APTOでは、約18,000件の日本語安全性学習データを独自設計し、安全性と対話品質の両立を目的とした安全性チューニングを実施。複数のベンチマークにおいて、安全性指標の改善と品質維持を確認しました。

▼公開データはこちら
https://huggingface.co/datasets/APTO-001/ja-safety-sft-dataset

公開内容

◼︎安全性チューニング済みモデル

Qwen3.5シリーズをベースに、日本語安全性に特化したチューニングを施したモデルを公開いたしました。

Qwen3.5-27B-SafetyTuned
Qwen3.5-9B-Base-SafetyTuned
Qwen3.5-9B-SafetyTuned

また、各モデルについて、推論環境に応じた GGUF 量子化版もご用意しています。

◼︎学習データセット（サンプル）

安全性チューニングに使用した約18,000件の日本語安全性学習データから、構成比を維持した500件のサンプルデータセットを公開いたしました。

公開データには以下のようなカテゴリが含まれています。

safety_refusal：有害な質問への適切な拒否と安全な代替案の提示
overrefusal_prevention：安全な質問への過剰拒否防止
mid_refusal：応答途中からの軌道修正パターン
anti_hallucination：存在しない情報の捏造防止

安全性チューニングの概要

◼︎手法

APTOでは、これまで培ってきたデータ作成ノウハウをもとに、約18,000件の日本語安全性学習データを設計・作成しました。データ設計においては、以下のアプローチを採用しています。

多段階の品質担保
攻撃プロンプト設計 → モデル応答生成 → 模範安全回答作成 → 品質精査の4段階プロセスを採用
過剰拒否防止データ
安全な質問に対して適切に回答するデータを含め、過剰な拒否を抑制
途中拒否パターン
ACL 2025 の Decoupled Refusal Training（DeRTa）に着想を得た、応答途中からの軌道修正パターンを導入
LLM-as-Judge 品質管理
データ品質を5段階で自動評価し、高品質データのみを採用

また、学習には LoRA（Low-Rank Adaptation）を採用し、モデルサイズごとにランクやターゲット層の最適化を行っています。

技術的特徴

◼︎日本語特化の安全性データ設計

英語圏中心の安全性手法を単純に適用するのではなく、日本語特有の文脈や表現を考慮したデータ設計を実施しました。

◼︎安全性と品質の両立

一般的に、安全性チューニングを強化すると対話品質や推論性能が低下するケースがあります。本取り組みでは、対話品質・知識・数学推論などの性能を維持しながら、安全性指標の改善を実現しています。

◼︎多角的な評価体制

評価には、日本語LLM安全性ベンチマーク「AnswerCarefully v2.2」をはじめ、「SORRY-Bench」「MultiJail」「MT-Bench」など複数のベンチマークを採用しました。

また、Qwen・Mistral・Gemmaの3系統LLMによるクロス評価を実施し、評価信頼性の向上を図っています。

評価結果（簡易）

指標	チューニング前	チューニング後	変化
AC Acceptable Rate	84.1%	89.8%	+5.7pt
SORRY-Bench 拒否率	85.3%	90.4%	+5.1pt
MT-Bench-ja	8.97	8.97	維持
JMMLU	67.8%	75.6%	+7.9pt

Qwen3.5-9B-Baseモデルでは、安全性指標「AC Acceptable Rate」が66.8%から80.2%へ改善し、最大13.4ポイントの向上を確認しました。

また、Qwen3.5-9B-Baseモデルでは最大13.4ポイントの安全性改善、Qwen3.5-9Bモデルでも品質を維持しながら安全性向上を確認しています。

※各モデルの詳細な評価結果やベンチマーク比較については、技術解説記事をご参照ください。

技術解説記事はこちら

APTOでは、今後もLLMの安全性と実用性を両立するためのデータ設計・チューニング技術の高度化に取り組んでまいります。

特に、過剰拒否（安全な質問を誤って拒否する問題）の抑制や、より広範なカテゴリにおける安全性向上に向けた研究開発を継続してまいります。

また、本プロジェクトで確立したデータ作成のノウハウは、他のモデルや言語にも適用可能です。

本取り組みで得られた知見を活用し、企業向けのLLM安全性チューニングや学習データセット開発支援も提供してまいります。

安全性チューニングやデータセット作成に関するご相談がございましたら、お気軽にお問い合わせください。

ご相談・お問い合わせはこちら

■ 技術詳細記事

https://apto.co.jp/news/2195/

■ Hugging Face
https://huggingface.co/datasets/APTO-001/ja-safety-sft-dataset

https://huggingface.co/APTO-001

株式会社APTO

あらゆるAI開発において、最も精度に影響を与える「データ」にフォーカスしたAI開発支援サービスを提供しております。クラウドワーカーを活用したデータ収集・アノテーションプラットフォーム「harBest」や、初期段階でボトルネックになるデータの準備を高速化する「harBest Dataset」、専門家の知見を活用してデータの精度を上げる「harBest Expert」など、データが課題で進まないAI開発を支援することで多くの国内外のエンタープライズ様に評価をいただいております。

会社名：株式会社APTO

所在地：東京都千代田区岩本町２丁目４−１神田岩本町プラザビル504

代表者：代表取締役　高品良

URL ：https://apto.co.jp/